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数 子 版 权 声 明 


图 灵 社 区 的 电子 书 没有 采用 专 有 客 
户 端 ， 您 可 以 在 任意 设备 上 ， 用 自 
己 喜 欢 的 浏览 器 和 PDF 阅读 器 进行 
阅读 。 

但 您 购买 的 电子 书 仅 供 您 个 人 使 
用 ， 未 经 授权 ， 不 得 进行 传播 。 
我 们 愿意 相信 读者 具有 这 样 的 良知 
和 觉悟 ， 与 我 们 共同 保护 知识 产 
权 。 

如 果 购 买 者 有 侵权 行为 ， 我 们 可 能 
对 该 用 户 实施 包括 但 不 限于 关闭 该 
帐号 等 维权 措施 ， 并 可 能 追究 法 律 
责任 。 
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澳大利亚 国立 大 学 统计 学 
博士 ， 本 科 和 研究 生 分 别 





zm 引 业 于 中 南 财经 政法 大 学 
和 中 国人 民 大 学 。 现 在 ， 他 任职 于 江西 
财经 大 学 金融 管理 国际 研究 院 ， 任 讲 
师 、 硕 士 生 导师 ， 研 究 方向 为 应 用 统计 
与 金融 计量 。 
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毕业 于 西安 电子 科技 大 
学 ， 现 任职 于 IBM 西 安 研 
ý " 发 中 心 ， 从 事 下 一 代 统 计 
预测 软件 的 开发 运 维 工作 。 








没有 人 会 是 完美 的 数据 科学 家 ， 所 以 我 们 需要 团队 
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数据 机 器 数学 统计 学 计算 机 沟通 领域 
可 视 化 — 563 科学 RI MA 











图 1-3: ZUGE REED BSAUTA ABETARE ASR, TETBEEEDADY, SeiEEDDAd Be 
所 解决 的 问题 大 致 匹配 





技能 和 自我 认 知 的 主要 元 素 
数据 商业 用 户 SH EN 发 者 FE 


数学 /运筹 学 
编程 NENNEN 
统计 学 | | 


1-4; 此 图 使 用 聚 类 算法 描述 了 数据 科学 的 子 领域 ， 源 自 Harlan Harris, Sean Murphy 和 Marck 
Vaisman 基于 2012 年 年 中 对 数 百名 数据 科学 从 业者 的 调查 所 著 的 Analyzing the Analyzers 
(O'Reilly) 
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图 3-9: 二 维 空间 上 的 聚 类 过 程 ， 先 看 左 半边 从 上 往 下 ， 再 看 右 半边 从 上 往 下 





用 户 1 -€e9e 9-9 ee e$ 一 — —e-e— — — —» Hat 


HA2 -@ 一 一 一 6 一 一 一 6 一 一 一 6 一 一 一 一 > 时 间 轴 


用 户 3 一 一 一 一 一 6698966 一 一 一 一 一 一 一 一 一 一 6 一 时间 轴 


用 户 4 —9-4—— ——€.-9—— —€———€9—— — ——9e——. 时 间 轴 











图 6-3: 在 用 户 的 时 间 序列 图 中 ， 用 不 用 的 颜色 代表 用 户 不 同 的 动作 类 型 。 红 色 表示 “点 赞 "， 黑 
表示 “点 豪 ” 








样本 内 与 样本 外 数据 
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图 67: 样本 期 内 的 数据 永远 发 生 在 样本 期 外 数据 之 前 ， 红 色 线 代表 了 模型 建立 的 时 点 





比较 对 数 收 益 率 与 绝对 百分比 收益 率 








2 3 
x = F(O/F(t-1) 











图 6-8: 对 数 和 绝对 百分比 收益 率 曲线 对 比 图 








应 用 不 同 衰减 指数 值 的 标准 普尔 指数 波动 率 平 滑 估 计 
— ”衰减 指数 0.90 
一 -” 豪 减 指数 0.97 
— 衰减 指数 0.99 
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图 6-12. 标准 普尔 指数 的 波动 率 的 指数 平滑 估计 : 使 用 了 三 个 不 同 大 小 的 指数 值 








预测 值 与 实际 值 


— 表现 一 致 好 的 小 手笔 
-一 ， 表 现 差强人意 的 大 手笔 


I I 

















图 6-13: 两 个 理论 模型 的 累积 Pnl 值 对 比 图 














哥伦比亚 大 学 2012 年 数据 科学 课程 Kaggle 竞 赛 结果 


162 submitted improvements by 31 teams as of December 11 2012 12:38 AM 队伍 和 得 分 情况 
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图 7-1: 该 图 出 自 Chris Muligan， 他 是 Rachel 班 里 的 学 生 。 该 图 很 好 地 描述 了 每 个 参赛 个 人 / 队伍 


在 比赛 期 间 ， 模 型 的 进化 情况 














图 7-3: 一 个 大 学 生 在 解决 自己 的 时 间 分 配 问 题 时 用 到 的 决策 树 ( 原 图 摘自 Stephen Marsland 的 著 
IE Machine Learning: An Algorithmic Perspective (《 基 于 算法 的 机 器 学 习 》，Chapman and 
Hal/CRC)， 并 获得 了 作者 的 许可 
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图 7-6: 泰坦 尼克 号 乘客 生存 模型 的 决策 树 图 














图 8-1: 推荐 系统 的 二 分 图 : 左 侧 是 用 户 ， 右 侧 是 推荐 的 项 目 ， 比 如 电视 节目 
































Dusty Relief, New Territories 








图 9-3: New Territories 的 Dusty Relief 项 目 (http://www.new-territories.com/roche2002bis.htm) 









































Million Dollar Blocks (Spatial Information Design Lab) 


: 地 理 信 息 设 计 实 验 室 (SIDL) 设计 的 “ 百 万 美元 街区 ”项 目 (http//www.spatialinform- 
ationdesignlab.org/) 
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9-8. Jer Thorp 和 Mark Hanse 的 作品 : Cascade MB 
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Hubway Seeking Metro-Boston 


fter almost a year of Hubway's relationship with metro-Boston, they're still crazy 
about each other. From the beginning of Hubway's pursuit of metro-Boston in the - - 
summer of 2011 to its short "break" later that winter, they're more serious about each — 1] 


hi Presa frot Da, s 7e ILY - - 
other than ever. Here's a look back at those first happy half a mi eer ——— REEERE 
i p= 2012. The first ra 500,000th trip took 


Sb Eon »500| Frips lasting under 30 
After the July 2012 occur a squama: Center and landed at minutes are free. Usage fees 


expansion into Cambridge, i é \ TDGa start racking up after every 


nos ride Lou x additional 30 minutes of a trip. 


Brattle Street. 


| Xv [gg 





"The first Hubway trip took X J casual riders 88% of Hubways ; 
ofi from Government : 国 Resistereariders teni 
Center on the 28th of H 

July 2011 by a registered 

[ malerider —— 
ike in any relationship, there are milestones 200K — 30K 400K trips 

and anniversaries to fondly remember and 
celebrate. Here is a map presenting some firsts 


and a 500,000th worth toasting tc. ; e S Ern x A Promising Future 


HubwayStations —, up t 2,500 trips | 43 h UR ( oar ANE M'etestons enthusiastic BIN sor trips 
are sized accordingto — © 2500-7000 T Q^. both to] to adoption of the Hubway 


the e o. © 709-1500 Dit: auth Gention program is maet in re 
trips started from that j " dramatic growth of Hubway 
station. © More than 16,000 trips M N trips across its first two 

这 open seasons. 





A to the 2010 U.S. Census, 764,000 

people reside in the Boston metro area. Hübway expendedinto 
55% of metro-Bostonians are aged between 15 Brookline in August 2012. 
and 44 years old. On the map, each Census block "The first trip occurred at 
is shaded according to its majority gender: 





Will You Register Me? 
mmediately after Hubway's launch on the 28th 
Hurricane Irene of July 2011, most trips were taken by casual 
_ riders. After its post-winter "break-up; those 
trips taken by registered riders overtook those 
taken by casual riders. It's getting serious! 


= Casual riders... 
— Registered male riders 
Registered female riders 





Winter Break 


T 
Aug'll Sep Jan "12 








; n Hubway's opening day, Bostonians enthusiastically adopted the r 
The First Date O service, South Station launched some of those inaugural trips and expansion into Cambridg 
the two most popular station: 


it remains one of the most popular stations, locking in an average of 
over 60 launched trips each day. In late July, Hubway expanded into. Eey arva and MITI 
Cambridge. Two Cambridge stations, Harvard Square at Mass Ave and 
MIT at Mass Ave, rival the Boston stations in their popularity. 





Daily Trip Average Expansion into 


Steady Sparks Somerville 
60 OM — pni South Station S parklines are. displaying the across-time usage EY Harvard Square & Mass Ave 


of select stations from which Hubway trips 


.." Stations added. 
amm TDGarden in Beacon Hill launched. Usage rates for the mos: popular D MIT s Mass Ave 


Boston Public Library stations appear consistently popular over time. 
OM Charles Circle * i s: E re et tr oer 
The Esplanade The second season opens. : 


vern! A with a new station! 
ee Q-— e Congress/Sleeper 


o Boston Convention 
Winter Break. i CEUBUL eU O-UMass Boston 
T T T T | 
Aug Sep" i Jan'12 Feb'12 Apr*12 May*12. Sep 2 Oa 








Date of First Trip 
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Miss Jones Understands — — Bl udi — — — When Are You Free Next? 

Rees males are the most active users of plitup by day and hour, halfa million Hubway trips appear largely predicable. 
Hubway. As Frank Sinatra crooned, "Miss Each weekday, most trips started during the rush hours of 8AM and 5PM. Most 

Jones, you're a girl who understands Pm a man of these weekday trips were launched by registered users. Casual users dominated the 

who must be free." The number of trips initiated launching of trips on the weekend. Weekend peak usage occurred at 3PM. 

by registered males is almost three times that of 

the number of trips initiated by registered. 

females. Casual riders make up about 7596 of 

those trips taken by registered males. Wed Thu 


= 3,000 trips 





Something about 30-Somethings 


he average age of a registered 

Hubway trip-taker is 36. Registered. 
female Hubway trip-takers are 34 years 
old. Trips taken by registered males are 


by those who are 36 years old. «30 





# of Trips. 


This visualization was designed by Eurry Kim and Kaz Sakamoto with the help of R, 


ArcGIS, and Adobe Illustrator. It is typeset in Chaparral Pro -- our current favorite. Souren | Hub, 2010 US. Census 











图 9-17; Eurry Kim 和 Kaz Sakamoto 参加 Hubway 公共 自行 车 项 目 可 视 化 竞赛 的 最 终 作 品 ， 以 及 
这 个 项 目 在 波士顿 中 心 区 实施 的 情况 

















10-1: 阿拉 伯 博 客 圈 





我 们 针对 客户 关心 的 内 容 ， 建 立 有 针对 性 的 网 络 图 。 比 如 ， 妇 女 健康 与 环 
境 。 下 图 中 ， 可 以 看 到 一 些 博 主 可 以 大 致 分 为 下 面 几 类 : 环境 保护 论 者 、 
女权 运动 者 、 政 治 圈 博 主 和 家 长 。 


”科学 与 环境 


“传统 的 父母 











10-2: 英语 圈 博 客 分 类 图 
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不 错 


棒 极 子 


令 人 着 迷 的 

















图 11-2. OK Cupid 的 研究 发 现 ， 在 第 一 次 接触 性 对 话 中 使 用 “漂亮 ” 


一 词 不 利于 得 到 积极 的 答复 





AVG_RR_RANK, DOI ABBR, HOI ABBR 








图 12-1: 50 个 课题 的 统计 显著 性 分 布 图 














MDCR CDM MEDDRA » Color by 
CM: 21000214 CONDITION GROUP. NAME 


伪 阳 性 率 ( 1- 特 异 度 ) 











12-2: 价值 2500 万 美元 的 ROC 曲线 图 





MOCR. COM MEDORA » MDCR. CDM MEDDRA » Color by 
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12-3: 针对 性 的 选取 模型 后 ， 模 型 的 预测 效果 可 以 得 到 较 大 改善 
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et i e 

















13-1: 依 患 者 的 ID 排序 ， 红 色 代表 得 癌症 的 患者 ， 绿 色 代表 未 得 癌症 的 人 
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这 幅 经 典 的 图 片 来 摘自 Hastie 和 Tibshirani 6869 Elements of Statistical Learning (《 统 
计 学 习 基 础 》，Springer-Verlag， 参 见 http://stanford.io/17szrYz) ， 展 示 了 同一 份 数据 ， 对 
二 值 响应 拟 合 线性 回归 模型 时 ， 采 用 15 个 最 近邻 和 1 个 最 近邻 得 到 的 不 同 结果 
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升 方法 ”决策 树 ”逻辑 回归 ”朴素 ”神经 网 络 SVN 非 前 枝 








13-4: 模型 的 差别 





Æ ROCH 














13-5. 一 个 绘制 ROC 曲线 的 例子 









































图 13-6: 升力 曲线 





3.《 纽 约 时 报 》 
朴素 贝 叶 斯 分 类 器 


下 表 对 比 了 使 用 我 们 实现 的 朴 
素 贝 叶 斯 分 类 器 对 文章 分 类 的 
结果 。 右 边 使 用 了 一 张 热 图 显 
示 了 预测 变量 。 总 体 上 ， 分 类 
器 的 准确 率 达 到 88.6% 


预测 部 分 









































实际 值 ~ > 


预测 什 
艺术 ”商业 宗教 体育 
a| e j ns 1⁄4 | 8» 




















实际 部 分 











图 15-1: 一 位 同学 的 部 分 答案 








R statistics 
mathematics 
data visualization 


data wrangling 














15-3; 数据 科学 技能 星 型 图 (Eg Adam Obeng, Eurry Kim, Christina Gutierrez, Kaz Sakamoto, 
Vaibhav Bhandari 合作 完成 ) 
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15-4. 数据 科学 在 各 大 学 间 流 行程 度 的 星座 图 (由 Kaz Sakamoto, Eurry Kim, Vaibhav 
Bhandari 合作 完成 ) 
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I. Ož II. OF 名 奥 … OB OE M. 
Q@ 数 据 管 理 IV. (DTP274 


中 国 版 本 图 书馆 CIP 数 据 核 字 (2015) 第 013752 号 




















内 容 提 要 

本 书 脱胎 于 哥伦比亚 大 学 “数据 科学 导论 ”课程 的 教学 讲义 ， 它 界定 了 数据 科学 的 研究 范畴 ， 
是 一 本 注重 人 文 精神 , 多 角度 , 全 方位 .深入 介绍 数据 科学 的 实用 指南 , 堪 称 大 数据 时 代 的 实战 宝典 。 
本 书 旨 在 让 读者 能 够 举一反三 地 解决 重要 问题 ， 内 容 包括 : 数据 科学 及 工作 流程 、 统 计 模 型 与 机 
器 学 习 算法 、 信 息 提取 与 统计 变量 创建 、 数 据 可 视 化 与 社交 网 络 、 预 测 模型 与 因果 分 析 、 数 据 预 
处 理 与 工程 方法 。 另 外 ， 本 书 还 将 带领 读者 展望 数据 科学 未 来 的 发 展 。 

本 书 适合 所 有 希望 通过 数据 分 析 解 决 问题 的 人 阅读 参考 ， 包 括 数据 科学 家 、 金 融 工程 师 、 
计 学 家 、 物 理学 家 、 学 生 及 其 他 对 数据 科学 感 兴趣 的 人 。 
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会 对 新 科技 的 应 用 。 作 为 技术 社区 中 活跃 的 参与 者 ，O’Reilly 的 发 展 充满 了 对 创新 的 
倡导 、 创 造 和 发 扬 光 大 。 


O'Reilly 为 软件 开发 人 员 带 来 革命 性 的 “动物 书 ”， 创 建 第 一 个 商业 网 站 (GNN); 组 
织 了 影响 深远 的 开放 源 代码 峰会 ， 以 至 于 开源 软件 运动 以 此 命名 ; 创立 了 Make 杂志 ， 
从 而 成 为 DIY 革命 的 主要 先锋 ， 公 司 一 如 既往 地 通过 多 种 形式 缔结 信息 与 人 的 纽带 。 
O'Reilly 的 会 议和 峰会 集聚 了 众多 超级 极 客 和 高 瞻 远 瞩 的 商业 领袖 ， 共 同 描绘 出 开创 
新 产业 的 革命 性 思想 。 作 为 技术 人 士 获取 信息 的 选择 ，O'Reilly 现在 还 将 先锋 专家 的 
知识 传递 给 普通 的 计算 机 用 户 。 无 论 是 通过 书籍 出 版 ， 在 线 服 务 或 者 面授 课程 ， 每 一 






































项 O'Reilly 的 产品 都 反映 了 公司 不 可 动摇 的 理念 一 一 信息 是 激发 创新 的 力量 。 
业界 评论 
"O'Reilly Radar RA P Wak.” 





Wired 


“O'Reilly 凭借 一 系列 ( 真希 望 当 初 我 也 想到 了 ) 非凡 想法 建立 了 数 百 万 美元 的 业务 。” 


Business 2.0 





"O'Reilly Conference 是 聚集 关键 思想 领袖 的 绝对 典范 。” 
— —CRN 


“一 本 O'Reilly 的 书 就 代表 一 个 有 用 、 有 前 途 、 需 要 学 习 的 主题 。” 


Irish Times 





"Tim 是 位 特 立 独行 的 商人 ， 他 不 光 放 眼 于 最 长 远 、 最 广阔 的 视野 并 且 切 实地 按照 
Yogi Berra 的 建议 去 做 了 : “如果 你 在 路 上 遇 到 岔路 口 ， 走 小 路 ( 含 路 ) ”回顾 过 去 
Tim 似乎 每 一 次 都 选择 了 小 路 ， 而 且 有 几 次 都 是 一 闪 即 逝 的 机 会 ， 尽 管 大 路 也 不 错 。 


Linux Journal 
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关于 封面 图 


本 书 封面 上 的 动物 是 九 带 狐 欠 (Dasypus novemcinctus) ， 是 一 种 广泛 分 布 于 中 北美 及 南美 











洲 的 哺乳 动物 。 在 拉丁 文中 ，novemcinctus 的 字面 意思 是 “九条 带子 ”( 位 于 腹部 可 伸缩 甲 

















过 后 方 )， 实 际 上 九 带 狼 狼 身上 的 “带子 ”数量 通常 为 7~11 条 。 产 自 南 美 训 的 三 带 狐 锥 是 
唯一 一 种 在 遇 到 危险 时 可 将 身体 团 成 球状 来 保护 自身 的 狼 狼 ， 其 他 种 类 的 夕 狼 则 由 于 甲 寺 
太 多 无 法 做 到 这 点 。 


夕 狂 的 皮肤 最 为 营 人 注目 ， 它 的 皮肤 呈 灰 褐色 、 皮 革 状 ， 由 叫 作 绑 甲 的 鳞片 组 成 ， 覆盖 了 
除 身 下 外 的 其 他 部 分 。 犯 狂 长 有 利 爪 ， 善 于 挖 洞 ， 通常 在 自己 的 领地 内 挖 好 几 个 洞 ， 并 且 
用 自 腺 给 自己 的 洞穴 做 记号 。 九 带 夕 狂 的 体重 通常 为 5.5~14 磅 ， 大 小 和 一 只 大 点 的 家 猫 差 


不 多 。 


























犯 狼 以 昆虫 为 主食 ， 但 是 也 吃水 果 、 小 候 虫 和 动物 的 卵 。 


上 肉 性 儿 狂 一般 一 胎生 四 个 幼 害 ， 四 个 幼 中 性别 都 是 一 样 的， 这 是 因为 歇 性 夕 狂 受 精 后 ， 受 
精 卵 分 裂 成 了 四 个 胚胎 。 狼 狂 刚 出 生 时 皮肤 异常 柔软 ,长 大 后 皮肤 慢 慢 变 得 坚硬 起 来 。 儿 
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Just JURE SURG, "TIBER 3-4 XA. EG — PEUX REITE BL RARR VE SD, 
但 是 如 果 面 对 一 辆 行驶 而 来 的 汽车 ， 这 个 反应 却 是 致命 的 : JURE EXIRET UE. 


























狐 猴 和 人 类 还 有 另外 一 种 不 季 的 联系 ， 它 是 唯一 已 知 的 及 风 病 病 毒 携 带 者 ， 人 类 在 食用 或 
接触 过 狼 狂 后 感染 上 麻风 病 的 消息 并 不 鲜 见 。 





























封面 图 取 自 英国 动物 学 家 乔治 : 肖 的 动物 学 图 详 ， 由 Karen Montgomery 重新 着 色 。 
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Rachel Schutt 








2012 年 秋天 ， 我 在 哥伦比亚 大 学 开设 了 一 门 新 课 : 数据 科学 导论 。 作 为 一 个 新 兴 领 域 ， 数 
据 科 学 在 学 术 界 尚未 划分 为 一 个 独立 学 科 。 那 么 数据 科学 到 底 是 什么 呢 ? 我 将 这 门 课 的 讲义 
集结 成 书 ， 试 图 回答 这 一 问题 。 


为 了 帮助 读者 理解 本 书 及 其 缘起 ， 我 觉得 有 必要 简单 介绍 一 下 我 自己 ， 和 我 设计 并 讲授 这 门 
课 的 初衷。 


初衷 

简单 地 说 ， 我 期 望 在 我 上 大 学 时 就 有 这 样 的 课 。 但 那 是 20 世纪 90 年代， 数据 爆炸 尚未 开 
台 ， 开 设 这 样 一 门 课 也 就 无 从 谈 起 。 我 本 科 时 主 修 数学 专业 ， 主 要 是 做 理论 和 实证 研究 。 
虽然 很 庆幸 这 些 训练 赋予 了 我 严谨 解决 问题 的 能 力 ， 但 同时 我 也 略 感 遗憾 ， 若 当时 能 再 学 
点 实际 应 用 的 技巧 就 更 好 了 。 


























在 从 大 学 毕业 到 获得 统计 学 博士 学 位 期 间 ， 我 走 了 一 些 弯路 ， 我 一 直 在 试图 寻找 适合 自己 
的 研究 领域 ， 喜欢 探 究 隐藏 在 宇 审 中 的 模式 ， 喜 欢 解答 有 趣 的 迹 题 ， 希 望 可 以 将 自己 的 这 
些 爱好 物 尽 其 用 。 之 所 以 谈 起 这 些 ， 是 因为 现在 很 多 学 生 觉 得 必须 先知 道 自 己 这 辈子 到 底 
想 要 干什么 ， 我 做 学 生 时 ， 不 可 能 规划 将 来 要 从 事 数据 科学 相关 的 工作 ， 因 为 那 时 根本 还 
没有 数据 科学 这 样 一 个 领域 。 因 此 我 建议 这 些 学 生 ， 或 者 其 他 愿意 听 我 在 这 儿 嘴 轨 的 人 : 
大 可 不 必 这 样 。 不 必 现 在 就 规划 好 未 来 ， 走 点 弯路 也 没什么 ， 谁 知道 这 一 路 上 你 会 发 现 什 
LE? 我 拿 到 统计 学 博士 学 位 后 ， 在 谷歌 工作 了 几 年 ， 在 这 几 年 中 ， 数 据 科学 、 数 据 科学 
家 这 些 术 语 才 在 硅谷 流行 起 来 。 


这 个 世界 有 许多 问题 尚未 解决 ， 对 于 那些 拥有 量化 思维 又 乐于 开动 大 脑 的 人 来 说 ， 在 解决 
问题 的 过 程 中 充满 了 机 遇 。 我 的 目标 是 帮助 学 生 们 成 为 具有 批判 性 思维 的 人 、 能 用 创新 思 
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维 去 解决 问题 〈 甚 至 是 人 们 尚未 发 现 的 问题 ) 的 人 、 对 世界 充满 好 奇 豆 欢 问 问题 的 人 。 若 
要 我 去 构建 一 个 数学 模型 ， 去 为 治愈 癌 症 贡 献 一 份 力量 ,或 者 揭示 出 自 闭 症 的 奥秘 , 或 者 
用 来 预防 念 怖 袭击 ， 我 或 许 永远 做 不 到 。 但 我 的 学 生 有 一 天 会 做 到 ， 我 教 给 了 他 们 这 些 知 
识 ， 就 算 完成 了 自己 的 使 命 。 写 作 此 书 ， 使 我 有 机 会 将 毕生 所 学 传播 给 更 多 的 人 ， 我 希望 
他 们 能 从 中 得 到 激励 ， 或 者 学 到 一 些 有 用 的 工具 ， 来 让 这 个 世界 变 得 更 好 ， 而 不 是 更 坏 。 


建 模 和 数据 分 析 的 过 程 并 非 彻底 地 中 立 ， 会 受到 研究 者 个 人 价值 观 的 影响 。 研 究 的 问题 是 
由 你 来 挑选 的 ， 研 究 假 设 也 是 你 根据 模型 得 出 的 ， 度 量 方 法 和 算法 也 是 由 你 来 设计 的 。 


世界 上 也 并 不 是 所 有 的 问题 都 需要 用 数据 科学 或 技术 手段 来 解决 ， 一 个 好 的 数据 科学 家 是 
指 他 能 甄别 出 哪些 问题 适合 用 数据 科学 解决 ， 构 建 出 对 应 的 数据 模型 或 者 编写 代码 去 解决 
它 。 但 是 我 相信 ， 在 多 学 科 的 团队 中 ， 如 果 有 一 个 理解 数据 、 具 有 量化 思维 、 精 通 编程 的 
问题 解决 者 (让 我 们 将 这 种 人 称 为 “数据 科学 家 ”)， 这 个 团队 可 能 会 走 得 更 远 。 


课程 的 起 源 

我 在 2012 年 3 月 份 提议 开设 此 课 ， 主 要 原因 有 三 。 其 中 第 一 个 原因 最 重要 ， 我 将 会 花 最 
大 篇 幅 去 前 述 。 

原因 一 : 我 想 告诉 我 的 学 生 业 界 的 数据 科学 家 是 怎么 工作 的 ， 并 且 让 他 们 掌握 一 些 数据 科 
学 家 所 使 用 的 技术 。 


在 为 Google+ 工作 时 ， 我 所 在 的 数据 科学 团队 由 一 群 身 怀 绝技 的 博士 组 成 ， 其 中 有 学 社会 
学 的 、 学 工程 的 、 学 物理 的 和 学 计算 机 的 ， 而 我 是 统计 学 专业 的 。 我 们 隶属 于 一 个 更 大 的 
团队 ， 这 个 团队 有 很 多 天 才 的 数据 工程 师 ， 他 们 实现 数据 管道 、 基 础 架构 、 分 析 面 板 和 一 
些 实验 性 质 的 架构 (用 来 做 A/B 测试 )。 我 们 的 团队 架构 是 扁平 化 的 ， 我 们 有 海量 的 数据 ， 
每 个 人 都 是 各 自 领 域 的 专家 ， 我 们 精诚 合作 ， 做 出 了 很 多 不 可 思议 的 事 ， 包 括 建立 预测 模 
型 、 实 现 算法 原型 、 揭 示 出 隐藏 在 数据 背后 的 模式 ， 这 些 对 我 们 的 产品 影响 次 远 。 


以 数据 为 基础 ， 我 们 为 领导 层 的 决策 提供 真知 灼 见 ， 分 析 因 果 关 系 ， 我 们 发 展 出 了 新 的 
方法 论 。 这 些 全 仰 仗 世界 一 流 的 工程 师 和 技术 设备 。 每 个 人 都 为 团队 引入 了 专家 级 的 技 
能 ， 包 括 编码 、 软 件 工程 、 统 计 学 、 数 学 、 机 器 学 习 、 通 信 、 可 视 化 、 探 索性 数据 分 析 
(EDA) 等 ， 还 有 对 社交 网 络 和 社交 空间 的 数据 的 敏感 直觉 和 专业 知识 。 


要 知道 ， 没 有 人 是 全 知 全 能 的 ， 但 集合 所 有 人 的 智慧 ， 我 们 就 做 到 “无 所 不 能 "。 我 们 认 
识 到 了 每 种 技能 的 价值 ， 因 此 就 成 功 了 。 我 们 的 共同 点 是 守信 ， 对 解决 有 趣 的 问题 充满 好 
奇 心 ， 对 待 新 的 科学 发 现 既 保 有 适度 的 怀疑 又 充满 激情 。 我 们 喜爱 这 项 工作 ， 对 数据 背后 
的 模式 充满 了 好 奇 。 





























































































































我 居住 在 纽约 ， 希 望 把 我 在 谷歌 公司 的 工作 经 验 传 授 给 哥伦比亚 大 学 的 学 生 们 ， 我 相信 他 
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们 需要 这 个 ， 而 且 ， 我 也 喜欢 教学 。 我 想 把 我 从 工作 中 学 到 的 东西 教 给 他 们 。 另 外 ， 我 知 
道 纽约 的 技术 圈 里 有 一 个 新 兴 的 数据 科学 家 社区 ， 我 也 希望 学 生 们 能 从 他 们 身上 汲取 知识 。 
因此 ， 这 门 课程 常会 邀请 业界 或 学 术 界 的 数据 科学 家 来 做 客座 演讲 。 每 位 遍 宾 所 专长 的 技 
能 和 领域 都 不 尽 相同 。 我 希望 通过 这 样 一 种 多 样 性 的 组 合 ， 让 学 生 们 对 数据 科学 有 一 个 更 
全 面 的 认识 。 

















RAZ: 数据 科学 有 希望 成 为 一 门 极 具 研 究 价 值 、 意 义 深 远 的 学 科 ， 它 会 影响 到 人 们 生活 
的 方方面面 。 为 此 ， 哥 伦比 亚 大 学 和 纽约 市 市 长 布 隆 伯 格 先生 在 2012 年 7 月 宣布 成 立 了 
一 个 数据 科学 与 工程 研究 所 。 开 设 这 门 课 是 在 尝试 发 展 数 据 科学 的 理论 ， 我 希望 让 数据 科 
学 成 为 一 门 真正 的 科学 。 


原因 三 : 我 时 常 听 到 业界 的 数据 科学 家 说 ， 在 脱离 实践 的 课堂 上 是 无 法 真正 教授 数据 科学 
的 ， 我 想 挑战 一 下 这 种 言论 。 我 一 直 将 我 的 课堂 视 作 数据 科学 家 的 孵化 医 ， 而 我 的 学 生 也 
确实 表现 出 色 ， 他 们 将 会 成 为 数据 科学 界 冉冉 升 起 的 新 星 。 事 实 上 ， 本 书 其 中 一 章 内 容 就 
是 由 我 的 学 生 们 贡献 的 。 


本 书 的 起 源 


如 果 不 是 遇 到 了 Cathy O'Neil， 我 的 教学 笔记 也 不 会 集结 成 书 。 她 是 一 位 数学 家 ， 后 来 转 
型 为 数据 科学 家 ， 她 的 个 人 博客 mathbabe.org 很 受 欢迎 ， 在 博客 中 的 “关于 自己 ”部 分 ， 
她 说 自己 一 直 在 期 待 下 面 这 个 问题 能 有 更 好 的 答案 : 非 理论 派 的 数学 家 能 做 些 什么 以 让 这 
个 世界 变 得 更 加 美好 ? 我 向 大 学 提议 开设 数据 科学 导论 这 门 课程 时 ， 恰 好 认识 了 Cathy, 
那 时 她 正在 一 个 初创 公司 工作 ， 职 位 是 数据 科学 家 。 对 于 我 开课 的 尝试 ， 她 十 分 支持 。 她 
还 提出 亲自 过 来 听课 ， 并 在 博客 上 同步 直播 我 的 授课 内 容 。 鉴 于 我 性 格 比较 内 向 低调 ， 起 
先 我 并 不 喜欢 这 么 做 ， 后 来 Cathy 说 服 了 我 。 她 说 这 与 商业 广告 的 肆意 炒作 截然 不 同 ， 这 
是 一 个 绝 好 的 机 会 ， 借 此 可 以 将 “数据 科学 ”的 概念 向 大 众 普 


我 在 哥伦比亚 大 学 上 的 每 一 节 课 ，Cathy 都 会 坐 在 第 一 排 ， 并 不 时 提出 问题 。 她 后 来 还 
受 邀 作为 这 门 课 的 客座 嘉宾 给 同学 们 上 了 一 课 ( 见 第 6 章 )。 除 了 将 我 的 讲义 发 布 到 博客 
E, Cathy 还 对 授课 内 容 贡 献 甚 丐 ， 比 如 ， 她 提醒 我 们 数据 建 模 过 程 中 存在 一 些 道德 伦理 
方面 的 考量 。 此 外 ， 她 鼓励 我 也 同步 开设 一 个 博客 (http://columbiadatascience.com/blog/)， 
用 来 和 学 生 们 做 直接 交流 。 我 在 上 面 也 会 总 结 自己 的 教学 经 验 ， 这 或 许 会 帮 到 其 他 教授 。 
Cathy 博客 中 所 有 关于 我 授课 内 容 的 条 目 ， 再 加 上 我 博客 中 的 部 分 内 容 ， 构 成 了 本 书 的 原 
始 素材 ， 我 们 在 这 一 基础 上 修改 加 工 ， 再 集合 一 些 其 他 资料 ， 终 成 此 书 。 


本 书 内 容 


本 书 既 介绍 实践 应 用 ， 也 提出 理论 规范 。 一 方面 ， 本 书 介绍 了 一 些 业 内 顶尖 数据 科学 家 的 
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日 常 工 作 内 容 ， 带 大 家 看 看 他 们 在 实践 中 如 何 应 用 数据 科学 知识 ， 借 此 管 中 瑞 鹏 ， 了 解 这 
一 学 科目 前 的 应 用 现状 。 另 一 方面 ， 我 们 还 将 从 学 术 角 度 去 定义 数据 科学 的 研究 范畴 。 

这 不 是 一 本 关于 机 器 学 习 的 教科 书 。 恰 恰 相 反 ， 本 书 会 多 角度 、 全 方位 、 深 入 地 介绍 数据 
科学 。 它 是 对 现 有 数据 学 科 领 域 的 纵览 ， 试 图 为 这 一 学 科 勾 勒 出 一 幅 全 景 图 。 因 此 ， 在 选 
择 案例 时 ， 我 们 会 更 注重 广度 而 非 深度 。 


希望 本 书 能 够 被 那些 善待 它 的 人 充分 利用 ， 举 一 反 三 ， 去 解决 那些 重要 的 问题 。 




















这 门 课 在 哥伦比亚 大 学 讲 完 后 ， 我 听 到 了 这 样 的 评价 : 它 是 一 门 从 人 文 主义 角度 全 面 讲解 
数据 科学 的 课程 。 我 们 不 仅 关 注 工 具 、 数 学 、 模 型 、 算 法 和 代码 ， 同 时 也 很 关注 上 述 过 程 
中 的 人 性 化 考量 。 关 于 什么 是 人 文 主 义 者 ， 我 很 喜欢 如 下 的 定义 :“ 他 十 分 关心 人 类 的 福 
社 ， 尊 重 个 人 的 价值 观 ， 并 且 注 重 维护 个 体 苯 严 。” 如 何在 数据 科学 中 体现 人 文 主义 ? 你 
在 建 模 和 设计 算法 时 ， 认 识 到 你 作为 个 人 所 应 起 到 的 作用 ， 想 想 哪 些 东 西 是 人 所 具备 而 电 
脑 不 具备 的 ， 比 如 基于 道德 的 判断 ， 向 世界 公布 一 种 新 的 统计 模型 前 ， 想 想 会 为 他 人 的 生 
活 带 来 什么 样 的 影响 。 


组 织 结构 


本 书 的 组 织 结 构 遵循 我 在 哥伦比亚 大 学 的 数据 科学 导论 课程 ， 在 第 1 章 ， 我 们 将 会 回答 
“什么 是 数据 科学 ”这 个 核心 问题 ， 同 时 介绍 数据 科学 工作 流程 ， 这 是 全 书 组 织 结构 的 纲 
领 。 第 2 章 和 第 3 章 对 统计 模型 和 机 器 学 习 算法 做 一 概览 ， 它 们 是 后 续 章 节 的 基础 。 第 4 
章 到 第 6 章 ， 以 及 第 8 章 将 会 针对 特定 案例 深入 学 习 一 些 模型 和 算法 。 第 7 章 讲述 如 何 从 
数据 中 提取 有 效 信息 以 及 在 模型 中 创建 统计 变量 。 第 9 章 和 第 10 章 将 深入 介绍 一 些 传统 
学 术 界 很 少 涉足 的 内 容 (当然 现在 情况 有 所 改善 ) : 数据 可 视 化 和 社交 网 络 。 第 11 章 和 第 
12 章 将 从 预测 模型 转 而 介绍 因果 分 析 。 第 13 章 和 第 14 章 介 绍 数 据 预 处 理 以 及 工程 方法 。 
第 15 章 是 我 的 学 生 们 讲述 他 们 的 故事 一 一 他 们 是 怎样 学 习 数 据 科学 的 。 第 16 章 展望 数据 
科学 未 来 的 发 展 。 


阅读 须知 


阅读 本 书 时 最 好 从 前 往 后 依 序 阅读 ， 这 样 更 便于 理解 ， 因 为 不 少 概念 都 是 一 环 扣 一 环 的 。 
如 果 你 的 统计 和 概率 背景 不 强 ， 或 者 从 前 没有 编 过 程 ， 那 么 阅读 本 书 的 同时 ， 如 能 阅读 本 
便 末 尾 附 带 的 补充 材料 以 查 漏 补缺 ， 效 有 果 将 会 更 好 。 全 书 为 大 家 推荐 了 很 多 补充 材料 ， 当 
你 阅读 某 个 章 刷 感到 困难 时 ， 这 或 许 由 于 你 缺失 某 些 背景 知识 ， 或 许 由 于 我 们 的 讲解 不 够 
清晰 ， 这 时 你 都 可 以 求助 于 这 些 补充 材料 ， 厘 清 概念 。 










































































书 中 的 代码 


本 书 不 是 一 本 手册 ， 


区 中 代码 仅 供 示范 ， 有 时 需要 读者 自己 去 亲手 实践 实现 某 些 算法 ， 以 





























期 对 其 中 的 概念 理解 得 更 加 深入 。 


目标 读者 

虽然 媒体 把 数据 科学 和 数据 科学 家 演 染 成 摇滚 巨星 一 般 ， 但 别 怕 ， 数 据 分 析 学 科 的 门槛 并 
没有 那么 高 。 你 是 否 是 金融 工程 师 并 不 重要 ， 只 要 你 热爱 解决 问题 ， 热 爱 寻 找 数据 背后 的 
模式 ， 那 么 数据 科学 就 绝对 是 你 的 菜 。 

具备 各 种 专业 背景 的 读者 均 可 陪读 本 书 ， 我 们 希望 每 位 读者 都 能 各 取 所 需 ， 读 出 自己 心中 
的 “哈姆雷特 ”。 

















有 经 验 的 数据 科学 家 能 从 一 个 全 新 的 角度 认识 自己 和 自己 从 事 的 行业 。 
统计 学 家 能 从 中 了 解 到 统计 学 和 数据 科学 的 关系 。 也 许 他 们 仍然 坚持 过 去 的 老 态 度 : 
什么 数据 科学 ， 这 就 是 统计 学 嘛 。 我 们 也 不 介意 这 样 的 争论 。 

金融 、 数 学 、 物 理 等 学 科 的 博士 们 ， 若 有 意 转 行 研究 数据 科学 ， 或 者 只 是 希望 学 习 
一 些 数据 科学 技能 ， 都 能 从 本 书 中 了 解 到 他 们 需要 学 些 什么 。 

学 生 或 从 未 接触 过 数据 科学 的 人 ， 会 觉得 被 直接 扔 进 了 该 领域 的 深水 区 。 如 果 不 能 
一 下 子 理解 书 中 内 容 ， 请 不 要 害怕 ， 这 是 必 经 之 路 。 

对 于 那些 从 未 用 了 R 或 Python 写 过 程序 的 读者 ， 我 们 推荐 一 本 书 : The Art of R 
Programming, Norman Matloff 著 (No Starch Press)， 在 哥伦比亚 大 学 选修 过 
该 课程 的 学 生 们 也 从 实验 讲师 Jared Lander 的 讲解 中 获 益 良 多 ， 他 的 新 书 R for 
Everyone: Advanced Analytics and Graphics (Addison-Wesley) 已 于 2013 年 12 月 上 市 。 
书 中 所 有 练习 也 可 以 使 用 Python 的 各 种 工具 包 实 现 。 

对 于 那些 完全 没有 编程 经 验 的 读者 ， 上 述 建议 也 适用 ,但 可 能 需要 先 阅 读 一 些 基 础 
的 编程 书籍 ， 如 下 两 本 书 就 是 不 错 的 选择 : Mark Lutz 和 David Ascher 的 Learning 
Python (O'Reilly), 以 及 Wes McKinney HJ Python for Data Analysis. (O'Reilly), 











基础 知识 要 求 

我 们 假设 本 书 读者 学 过 线性 代数 、 概 率 论 和 统计 学 ， 还 有 一 些 编程 经 验 。 不 过 ， 没 有 学 过 
也 没关系 ， 我 们 试图 让 本 书 在 内 容 上 能 够 尽 可 能 涵 括 所 有 内 容 。 当 然 ， 如 果 读 者 在 某 方面 
知识 欠缺 ， 大 可 以 针对 不 足 自行 寻找 其 他 补充 阅读 材料 。 我 们 在 全 书 中 也 都 尽 可 能 向 读者 
提示 哪些 补充 阅读 材料 能 让 你 更 深刻 地 理解 相关 问题 。 
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补充 阅读 

数据 科学 作为 一 个 新 兴 领 域 ， 植 根 于 其 他 学 科 : 统计 推 新 、 算 法 、 统 计 模 型 、 机 器 学 习 、 
实验 设计 、 优 化 理论 、 概 率 论 、 人 工 智能 、 数 据 可 视 化 和 探索 性 数据 分 析 等 。 每 门 学 科 都 
值得 花 好 几 门 课 或 好 几 本 书 专 门 讲解 ， 这 正 是 写作 本 书面 临 的 一 个 极 大 挑战 ， 因 此 我 们 将 
这 些 补充 阅读 材料 附 在 后 面 ， 希 望 读者 在 需要 时 可 以 参考 。 


数学 
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Linear Algebra and Its Applications, Gilbert Strang 车 (Cengage Learning) 


Convex Optimization, Stephen Boyd 和 Lieven Vendenberghe 著 (Cambridge 


University Press) 


A First Course in Probability (Pearson) , Introduction to Probability Models (Academic 
Press), Sheldon Ross 著 


编程 


R in a Nutshell, Joseph Adler # (O’Reilly) 
Learning Python, Mark Lutz 和 David Ascher 车 (O'Reilly) 
R for Everyone: Advanced Analytics and Graphics, Jared Lander 车 (Addison-Wesley) 


The Art of R Programming: A Tour of Statistical Software Design, Norman Matloff 3 
(No Starch Press) 


Python for Data Analysis, Wes McKinney 若 (O'Reilly) 


数据 分 析 与 统计 推断 


Statistical Inference, George Casella fll Roger L. Berger 车 (Cengage Learning) 
Bayesian Data Analysis, Andrew Gelman 等 车 (Chapman & Hall) 


Data Analysis Using Regression and Multilevel/Hierarchical Models, Andrew Gelman 
和 Jennifer Hill x (Cambridge University Press) 


Advanced Data Analysis from an Elementary Point of View (http://goo.gl/udICRX) , 
Cosma Shalizi 著 (Cambridge University Press) 


The Elements of Statistical Learning: Data Mining, Inference and Prediction, Trevor 
Hastie, Robert Tibshirani 和 Jerome Friedman 著 (Springer) 





人 工 智 能 和 机 器 学 习 
* Pattern Recognition and Machine Learning, Christopher Bishop 著 (Springer) 


e Bayesian Reasoning and Machine Learning, David Barber 3 (Cambridge University 


Press) 
* Programming Collective Intelligence, Toby Segaran 车 (O'Reilly) 


* Artificial Intelligence: A Modern Approach, Stuart Russell 和 Peter Norvig 车 (Prentice 
Hall) 


* Foundations of Machine Learning, Mehryar Mohri, Afshin Rostamizadeh 和 Ameet 
Talwalkar # (MIT Press) 


* Introduction to Machine Learning (Adaptive Computation and Machine Learning), 
Ethem Alpaydim 著 (MIT Press) 


实验 设计 
e Field Experiments, Alan S. Gerber 和 Donald P. Green # (Norton) 


* Statistics for Experimenters: Design, Innovation, and Discovery, George E. P. Box 等 车 


(Wiley-Interscience) 


可 视 化 
e The Elements of Graphing Data, William Cleveland 车 (Hobart Press) 


e Visualize This: The FlowingData Guide to Design,Visualization, and Statistics, Nathan 
YauÉ (Wiley) 


关于 本 书 其 他 贡献 者 

我 数 请 了 很 多 嘉宾 来 我 的 数据 科学 导论 课 上 做 讲座 ， 他 们 有 的 来 自 初 他 公司 、 科 技 企业 ， 
当然 还 有 人 就 是 我 所 在 大 学 的 教授 。 书 中 多 章 的 内 容 都 是 在 这 些 讲座 的 基础 上 写成 的 。 虽 
然 他 们 疫 有 执笔 写作 此 书 ， 但 书 中 很 多 内 容 及 想法 皆 来 自 他 们 ， 此 外 ， 他 们 还 帮助 我 审阅 
了 各 自 讲座 所 对 应 章 中 的 内 容 ， 并 给 出 了 很 好 的 建议 ， 对 此 我 们 次 表 谢 意 。 没 有 他 们 我 的 
数据 导论 课 就 不 会 成 功 ， 没 有 他 们 也 不 会 有 这 本 书 ， 他 们 是 我 在 数据 科学 领域 的 楷模 。 


排版 约定 


本 书 使 用 了 下 述 排版 约定 。 
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Till 


。 楷体 
表示 新 的 术语 。 


A^ 


。 等 宽 字体 (constant width) 
表示 程序 片段 ， 也 用 于 在 正文 中 表示 程序 中 使 用 的 变量 、 函 数 名 、 命 令 行 代 码 、 环 境 
变量 、 语 句 和 关键 字 等 代码 文本 。 





。 加 粗 的 等 宽 字体 (constant width bold) 
表示 应 该 由 用 户 输入 的 命令 或 者 其 他 文本 。 


。 斜体 的 等 宽 字体 (constant width italic) 
表示 应 该 由 用 户 输入 的 值 或 根据 上 下 文 决定 的 值 替 换 的 文本 。 
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标 代表 小 技巧 、 建 议 或 说 明 。 























Cm 这 个 图 标 代 表 警 告 或 提醒 注意 的 信息 








使 用 代码 示例 


你 可 以 在 这 里 下 载 本 书 随 附 的 资料 (数据 集 、 练 习题 等 ) : https//github.com/oreillymedia/ 


doing data science, 





本 书 旨 在 帮助 读者 解决 实际 问题 。 一 般 来 说 ， 对 于 书 中 提 到 的 代码 ， 也 许 你 需要 在 自己 的 
程序 或 文档 中 用 到 ， 但 除非 大 段 大 段 地 使 用 ， 否 则 你 不 必 与 我 们 联系 取得 授权 。 因 此 ， 用 
本 书 中 的 几 段 代码 写成 一 个 程序 不 用 向 我 们 申请 许可 。 但 是 ， 销 售 或 者 传播 OReilly 图 书 
随 附 代码 的 光盘 必须 事先 获得 授权 。 引 用 书 中 的 代码 来 回答 问题 你 也 无 需 我 们 授权 ， 将 大 
段 的 示例 代码 整合 到 你 自己 的 产品 文档 中 则 必须 经 过 许可 。 




















使 用 我 们 的 代码 时 ， 和 希望 你 能 标明 它 的 出 处 。 出 处 一 般 要 包含 书 名 、 作 者 、 出 版 社 和 
ISBN， 例 如 : Doing Data Science by Rachel Schutt and Cathy O'Neil (O’Reilly). Copyright 
2014 Rachel Schutt and Cathy O'Neil, 978-1-449-35865-5, 





如 有 果 还 有 其 他 使 用 代码 的 情形 需要 与 我 们 沟通 ， 可 以 随时 与 我 们 联系 : 


permissions @oreilly.com 





Safari? Books Online 


D Safari Books Online (http://www.safaribooksonline.com). 是 按 需 











Safa ri 获取 的 数字 图 书馆 。 它 同时 以 图 书 和 视频 的 形式 出 版 世界 顶级 


Books Online 技术 和 商务 作家 的 专业 作品 。 


技术 专家 、 软 件 开 发 人 员 、Web 设计 师 、 商 务 人 士 和 创意 专家 等 ， 在 开展 调研 、 解 决 问 
题 、 学 习 和 认证 培训 时 ， 都 将 Safari Books Online 视 作 获取 资料 的 首选 渠道 。 





对 于 组 织 团 体 、 政 府 机 构 和 个 人 ，Safari Books Online 提供 各 种 产品 组 合 和 灵活 的 定 
价 策略 。 用 户 可 通过 一 个 功能 完备 的 数据 库 检 索 系 统 访问 O'Reilly Media, Prentice 


Hall Professional、Addison-Wesley Professional, Microsoft Press, Sams, Que, Peachpit 











Press, Focal Press, Cisco Press, John Wiley & Sons, Syngress, Morgan Kaufmann, IBM 
Redbooks, Packt, Adobe Press, FT Press, Apress, Manning. New Riders, McGraw-Hill, 


Jones & 


Bartlett, Course Technology 以 及 其 他 几 十 家 出 版 社 的 上 千 种 图 书 、 培 训 视频 和 正 


式 出 版 之 前 的 书稿 。 要 了 解 Safari Books Online 的 更 多 信息 ， 我 们 网 上 见 。 


联系 我 们 


请 把 对 本 书 的 意见 和 疑问 发 送 给 出 版 社 。 


美国 : 





O’Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 


中 国 : 


北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 室 (100035) 
奥 莱 利 技术 咨询 (北京 ) ARAE] 
O'Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那儿 找到 本 书 的 相关 信息 ， 包 括 勘 误 表 、 示 
例 代 码 以 及 其 他 信息 。 本 书 的 网 站 地 址 是 : 
http://oreil.ly/doing_data_science 


对 于 本 : 

















的 评论 和 技术 性 问题 ， 请 发 送 电子 邮件 到 : 








bookquestions@oreilly.com 


要 了 解 更 多 OReilly 图 书 、 培 训 课程 、 会 议和 新 闻 的 信息 ， 请 访问 以 下 网 站 


http://www.oreilly.com 








我 们 在 Facebook 的 地 址 如 下 : http://facebook.com/oreilly 
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请 关注 我 们 的 Twitter 动态 : http://twitter.com/oreillymedia 


我 们 的 YouTube 视频 地 址 如 下 : http:/www.youtube.com/oreillymedia 


* 
致谢 
感谢 在 谷歌 的 同事 : David Huffaker、Makoto Uchida、Andrew Tomkins、 Abhijit Bose, Daryl 
Pregibon, Diane Lambert, Josh Wills, David Crawshaw, David Gibson, Corinna Cortes, Zach 
Yeskel 和 Gueorgi Kossinetts。 另 外 ， 还 要 感谢 在 哥伦比亚 大 学 统计 系 的 朋友 们 : Andrew 
Gelman 和 David Madigan， 还 有 课程 的 实验 指导 者 和 助教 Jared Lander 和 Ben Reddy。 





最 后 ， 也 最 真诚 地 感谢 家 人 和 朋友 ， 他 们 提供 了 无 尽 的 支持 和 爱 ， 他 们 是 : Eran Goldshtein, 
Barbara 和 Schutt, Becky, Susie 和 Alex、Nick、Lilah、Belle、Shahed， 以 及 Feeneys 一 家 。 
Rachel Schutt 








感谢 朋友 与 家 人 ， 尤 其 是 可 爱 的 儿子 和 丈夫 ， 他 们 允许 我 每 周 为 这 门 课程 写 一 次 博客 。 
Cathy O'Neil 





我 们 还 要 共同 对 以 下 人 士 和 单位 致谢 。 


。 在 Cathy 家 参加 聚会 的 那些 志同道合 的 朋友 : Chris Wiggins, David Madigan, Mark 
Hansen, Jake Hofman, Ori Stitelman 和 Brian Dalessandro, 

* 编辑 Courtney Nash 和 Mike Loukides, 

。 MA User 级 建 模 会 议 的 参与 者 及 组 织 者 , 很 多 关于 本 书 的 基本 构思 即 来 源 于 那里 。 

。 FEN! 

e Coppelia 餐馆 ，Cathy 和 Rachel 经 常 磁 头 和 吃 早餐 的 地 方 。 


最 后 ， 我 们 将 谢意 诚 敬 给 Johnson 实验 室 的 John Johnson 和 David Park， 感 谢 他 们 的 慷慨 
大 方 ， 提 供给 我 充足 的 时 间 用 来 写作 此 书 。 
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过 去 几 年 ， 数据 科学 ”和 “大 数据 ”的 概念 被 媒体 炒 得 热火 朝天 。 对 于 这 种 现象 ， 人 们 
一 开始 难免 疑惑 ， 其 至 怀疑 。 事 实 上 ， 这 就 是 Cathy 和 我 当时 的 反应 。 


对 于 这 些 概念 ，Cathy 和 我 在 很 长 一 段 时 间 里 都 感到 迷茫 ， 直 到 我 们 俩 相识 。 我 们 一 般 会 
在 星期 三 共 进 早餐 ， 每 当 谈 起 这 种 现象 ， 都 有 一 种 不 安 的 感觉 ， 总 觉得 在 这 喧嚣 背后 确 然 
有 一 股 新 寡 疲 在 请 现 ， 这 股 潮流 或 许 是 意义 这 远 的 ， 代 表 着 我 们 整个 文化 范式 在 数据 的 影 
响 下 都 会 产生 深刻 的 改变 。Cathy 和 我 都 是 干 这 行 的 ， 觉 得 应 该 发 挥 我 们 的 强项 ， 去 探索 
这 些 现象 背后 的 原因 ， 而 不 是 置之不理 。 


在 深入 探索 之 前 ， 我 们 有 必要 人 先 介绍 一 下 媒体 所 炒作 的 大 数据 时 代 ， 也 许 你 和 我 们 一 样 ， 
也 认为 那些 概念 难以 理解 、 语 起 不 详 。 然 后 ， 本 章 会 进一步 讲解 我 们 是 如 何 拨 开 迷雾 发 现 
背后 的 真相 ， 以 至 于 Rachel 决定 在 哥伦比亚 大 学 开设 数据 科学 导论 课程 ， 而 Cathy 则 在 她 
的 博客 上 同步 记录 该 课程 的 内 容 ， 乃 至 上 述 所 有 内 容 终于 结集 成 书 送 到 你 手中 。 


3L. 3L. N EA ri3 rin 

1.1 大 数据 和 数据 科学 的 喧 串 

让 我 们 抛 开 炒作 ， 因 为 很 多 人 可 能 和 我 们 一 样 ， 都 对 数据 科学 心 存 怀疑 。 之 所 以 一 上 来 就 
讲 这 些 ， 是 想 让 你 知道 ， 我 们 也 和 你 一 样 ! 假如 你 也 心 存 疑虑 ， 说 明 你 也 很 可 能 会 贡献 一 
份 力量 ， 推 动 数据 科学 的 健康 发 展 ， 使 其 对 社会 产生 积极 的 影响 ， 也 使 数据 科学 这 门 学 科 
趋 于 正统 ， 在 众多 学 科 中 能 占有 一 席 之 地 。 


让 我 们 先 来 细 数 大 数据 和 数据 科学 之 所 以 这 样 让 人 如 上 除去 里 筋 里 的 原因 。 



























































(1) 大 多 数 基本 的 术语 都 缺乏 严格 定义 。 究 竟 什 么 是 大 数据 ? 数据 科学 又 是 什么 意思 ? 大 
数据 和 数据 科学 之 间 有 什么 关系 ? 数据 科学 就 是 关于 大 数据 的 科学 吗 ? 只 有 像 谷 歌 和 
Facebook 这 样 的 高 科技 企业 才 用 得 到 数据 科学 吗 ? 为 什么 有 人 认为 大 数据 是 一 个 交叉 
学 科 〈 比 如 天 文学 、 金 融 学、 科技 等 )， 但 数据 科学 却 只 是 科技 界 的 事 儿 ? 大 数据 ， 多 
大 才 是 大 ? 这 些 术 语 及 概念 如 此 含混 不 清 ， 简 直 毫 无 意义 。 

D 对 于 数据 科学 领域 的 研究 者 ， 不 管 是 在 学 术 界 还 是 工业 界 ， 公 众 都 缺乏 敬意 。 事 实 上 ， 
他 们 在 这 一 领域 内 辛勤 工作 了 很 多 年 ， 而 这 些 工 作 是 继承 了 各 个 领域 的 前 辈 们 数 十 年 
甚至 数 百年 的 工作 成 果 ， 这 些 领 域 包括 统计 学 、 计 算 机 和 科学、 数学、 工程 学 以 及 其 他 
学 科 。 而 媒体 传播 给 公众 的 信息 却 是 这 样 的 : 机 器 学 习 算法 是 上 个 礼拜 才 发 明 出 来 的 ， 
谷歌 出 现 之 前 都 不 存在 所 谓 的 大 数据 。 这 简直 苑 雇 ， 很 多 正在 使 用 的 方法 和 技术 ， 还 
有 我 们 面临 的 挑战 ， 都 不 过 是 在 过 去 已 有 的 方法 、 技 术 和 挑战 上 演变 而 来 的 。 我 们 并 
不 否认 新 事物 和 新 技术 的 出 现 ， 只 是 觉得 应 该 对 历史 和 前 人 的 研究 成 果 保 持 必 要 的 
敬意 。 

Q) 媒体 狗 了 。 人 们 将 各 种 各 样 的 桂冠 加 诸 数据 科学 家 的 头 上 ， 人 们 形容 他 们 是 掌握 了 宇 
宙 奥 秘 的 魔法 师 ， 其 疯狂 程度 堪 比 金融 危机 之 前 。 天 花 乱 附 的 宣传 很 容易 掩盖 真相 、 
牌 曲 事实 。 这 些 宣传 的 噪声 越 多 ， 真 正 有 效 的 信息 就 越 少 。 因 此 ， 若 “大 数据 ”被 媒 
体 吹 得 越久 ， 公 众 越 容易 被 误导 ， 越 难 获知 这 一 概念 背后 真正 有 益 于 社会 的 一 面 〈 如 
果 有 的 话 )。 

(4) 统计 学 家 觉得 他 们 正在 干 的 事 就 是 数据 科学 。 换 句 话 说 ， 这 本 来 就 是 他 们 的 饭碗 。 亲 
爱 的 读者 们 ， 请 设身处地 替 统 计 学 家 们 想 想 ， 有 人 抢 自己 的 饭碗 是 什么 感受 。 媒 体 也 
常常 将 数据 科学 轻描淡写 为 统计 学 和 机 器 学 习 在 科技 界 的 简单 应 用 。 我 们 会 在 书 中 前 
明 ， 不 是 说 将 统计 学 和 机 器 学 习 这 些 “ 旧 酒 ” 装 进 新 瓶 里 ， 就 叫 作 数据 科学 。 它 绝对 
有 资格 作为 一 个 独立 的 学 科 存 在 。 

(5) 所 有 自称 为 科学 的 都 不 是 真正 的 科学 。 这 句 话 或 许 有 些 道理 ， 但 不 代表 数据 科学 这 一 
术语 毫 无 意义 ， 它 代表 的 可 能 不 是 科学 ， 而 是 某 种 技术 。 


1.2” 冲 出 迷雾 
Rachel 取得 统计 学 博士 学 位 到 她 在 谷歌 工作 的 这 段 经 历 ， 或 许 能 帮 有 我 们 解答 一 些 疑 或 ， 
她 说 : 































































































进入 谷歌 之 后 ， 我 很 快 就 意识 到 工作 中 用 到 的 东西 和 我 读 统 计 学 博士 学 位 时 学 到 
的 东西 差别 很 大 。 并 不 是 说 我 的 统计 学 知识 毫 无 用 武之 地 ， 相 反 ， 我 在 学 校 学 到 
的 东西 为 我 思考 问题 提供 了 一 个 框架 ， 统 计 学 的 很 多 知识 都 为 我 的 日 常 工 作 提供 
了 坚实 的 理论 和 实践 基础 。 


在 谷歌 工作 期 间 ， 我 发 现 必须 掌握 很 多 在 学 校 没 学 到 的 东西 ， 比 如 计算 、 编 程 、 
数据 可 视 化 技能 和 许多 领域 知识 。 这 种 经 验 既 特殊 又 普遍 ， 我 拥有 统计 背景 ， 因 
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此 需要 补充 前 面 提 到 过 的 那些 知识 ， 而 若 换 作 一 位 计算 机 、 社 会 学 或 者 物理 学 背 
景 的 人 ， 他 们 也 需要 根据 自己 的 知识 缺陷 去 补充 相应 的 知识 。 每 个 人 都 拥有 自己 
独特 的 知识 结构 ， 重 要 的 是 大 家 能 够 紧密 合作 ， 取长补短， 组 成 一 个 团队 去 解决 
数据 问题 。 
一 般 人 对 上 述 故 事 表 定 会 有 这 样 一 种 想法 : 你 走 上 工作 岗位 后 就 会 发 现 ， 在 学 校 学 到 的 知 
识 ， 远 远 不 能 满足 实际 工作 的 需要 。 因 此 ， 本 书 中 教授 的 统计 学 知识 与 业界 所 应 用 的 统计 
学 方法 ， 肯 定 也 古 不 尽 相 同 的 。 对 此 ， 我 们 有 一 些 自 己 的 看 法 。 














。 为 什么 学 校 里 的 统计 要 和 工业 界 的 统计 如 此 不 同 ? 为 什么 很 多 学 校 的 课程 要 和 现实 如 此 
Wi? 

。 这 种 差异 不 仅 存 在 于 学 校 里 的 统计 和 工业 界 的 统计 之 间 。 很 多 数据 科学 家 的 一 个 共同 感 
受 是 ， 工 作 时 他 们 需要 接触 更 多 的 知识 、 方 法 论 和 工序 〈 详 见 第 2 章 ) ， 而 这 些 东 西 都 
是 以 统计 学 和 计算 机 科学 为 基础 的 。 


抛 却 这 些 媒 体 给 予 数据 科学 的 光环 ， 只 有 一 件 事 是 实在 的 : 数据 科学 是 一 个 新 生 事物 。 它 
刚刚 诞生 ， 却 被 赋予 了 太 多 来 炮 ， 使 人 们 对 其 充满 了 很 多 不 切实 际 的 幻想 ， 而 幻想 最 终 是 
会 破灭 的 。 我 们 要 保护 数据 科学 ， 过 分 吹捧 可 能 会 让 这 个 新 兴 领 域 过 早 天 折 。 


Rachel 决定 去 研究 数据 科学 这 一 文化 现象 ， 她 想 了 解 其 他 人 对 数据 科学 的 感受 。 她 开始 和 
谷歌 的 人 接触 ， 和 很 多 创业 公司 和 高 科技 公司 的 人 接触 ， 和 大 学 (特别 是 统计 系 ) 里 的 老 
师 们 接触 。 


从 这 些 接触 中 ，Rachel 觉得 数据 科学 的 轮廓 渐渐 清晰 起 来 ， 她 进一步 深入 ， 决 定 在 哥 伦 
比 亚 大 学 开设 一 门 数据 科学 导论 课程 ， 与 此 同时 Cathy 在 博客 上 连载 了 该 课程 的 讲义 。 我 
们 期 望 在 这 门 课程 结束 时 ， 我 们 ， 还 有 我 们 的 学 生 们 能 对 数据 科学 的 本 质 有 一 个 清晰 的 理 
解 。 现 在 我 们 把 课程 的 内 容 集 结 成 书 ， 也 是 希望 帮助 更 多 的 人 去 了 解数 据 科 学 。 


1.3 为 什么 是 现在 

现在 ， 数 据 充斥 在 我 们 生活 的 方方面面 。 网 络 购物 、 网 上 通信 、 浏 览 新 闻 、 收 听 在 线 音 
乐 、 搜 索 信 息 ， 或 在 网 上 表达 观点 ， 这 些 行为 都 会 被 记录 。 同 时 ， 我 们 拥有 充足 且 廉 价 的 
计算 能 力 。 有 数据 ， 有 计算 能 力 ， 这 为 从 事 数据 科学 提供 了 良好 的 环境 。 

大 家 都 知道 ， 线 上 数据 的 收集 正在 经 历 一 场 革命 〈 稍 后 会 详细 介绍 ) ， 但 他 们 所 不 知道 的 
是 ， 离 线 数据 的 采集 同样 也 在 革新 。 人 们 的 日 常 行为 也 被 “数据 化 ”了 。 将 二 者 结合 起 
来 ， 我 们 可 以 深入 研究 人 类 的 行为 ， 甚 至 从 更 高 的 物种 角度 ， 来 研究 人 类 行为 区 别 于 其 他 
物种 的 特殊 性 。 


数据 也 不 局 限于 互联 网 产生 的 数据 ， 金 融 、 医 疗 、 制 药 、 生 物 信息 、 公 共和 福利、 政府 、 教 
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育 、 零 售 等 行业 都 会 产生 大 量 的 数据 ， 数 据 在 各 行 各 业 的 影响 力 在 与 日 俱 增 。 部 分 行业 
所 储存 的 信息 达到 了 “大 数据 ”的 程度 〈 详 见 第 2 章 ) ， 而 另 一 些 行业 的 信息 量 则 没有 那 
么 多 。 


数据 科学 这 一 课题 变 得 日 益 有 趣 (或 提出 了 新 的 挑战 )， 这 不 仅仅 是 因为 数据 的 体 量 增 大 ， 
更 多 的 是 因为 数据 本 身 (很 多 时 候 是 实时 数据 ) 成 了 构建 数据 产品 的 关键 要 素 。 在 互联 网 
上 ， 有 亚马逊 的 推荐 系统 、Facebook 的 朋友 推荐 系统 ， 还 有 其 他 的 图 书 、 电 影 、 音 乐 等 推 
荐 系统 ， 在 金融 业 ， 有 信用 评级 系统 、 交 易 算法 和 模型 ， 在 教育 领域 ， 可 以 实现 教育 对 学 
生 的 量 身 定 制 ， 比 如 现在 的 网 络 培训 公司 Knewton 和 网 络 大 学 Khan Academy; 在 政府 机 
构 中 ， 这 意味 着 以 数据 为 基础 去 制定 公共 政策 。 


我 们 正在 见证 一 个 时 代 的 开始 ， 这 个 时 代 是 一 个 巨大 的 、 充 斥 着 人 文 特色 的 反馈 环 : 我 们 
的 行为 会 改变 产品 ， 产 品 又 反 过 来 影响 我 们 的 行为 。 技 术 使 这 一 切 成 为 可 能 ， 我 们 拥有 处 
理 大 数据 的 基础 架构 、 更 大 的 内 存 和 更 快 的 网 络 ， 而 且 社 会 公众 也 日 渐 认同 技术 是 生活 中 
必 不 可 少 的 组 成 部 分 。 在 十 年 前 ， 这 一 切 我 们 还 不 吉 想 象 。 

由 于 这 种 基于 反馈 的 循环 对 社会 变革 将 产生 不 可 小 舰 的 影响 力 ， 我 们 认为 ， 有 必要 认真 考 
虑 如 何 确 保 这 种 循环 的 良性 运行 ， 尤 其 是 直接 参与 这 一 过 程 的 人 员 ， 在 实践 中 应 保持 哪些 
道德 准则 、 应 负 何 种 责任 。 本 书 的 目的 之 一 就 是 针对 这 些 话题 开展 一 些 抛砖引玉 的 探讨 。 





























数据 化 
Foreign Affairs 杂志 在 2013 年 5/6 月 期 刊 上 发 表 了 一 篇 由 库 殉 耶 和 迈 尔 - 舍 恩 伯 格 共同 撰 





写 的 文章 “The Rise of Big Data”( 大 数据 的 嘱 起 ) 。 该 文 谈 到 了 数据 化 的 概念 ， 以 朋友 之 
间 的 关系 为 例 ， 他 们 将 对 朋友 的 喜欢 程度 转化 为 数值 ， 这 些 数据 被 存储 起 来 ， 用 于 日 后 研 
究 ， 或 者 出 售 。 将 问题 数据 化 ， 这 是 我 们 人 类 处 理 问 题 时 经 常 采用 的 一 种 方式 ， 不 管 是 线 
上 还 是 线 下 。 














在 文章 中 ， 数 据 化 被 定义 为 一 种 处 理 流 程 ， 它 将 生活 的 方方面面 转化 为 数据 。 比 如 ， 谷 
歌 眼 镜 将 其 所 视 范 围 内 的 景象 转化 成 数据 ，Twitter 将 人 们 偶尔 产生 的 想法 转化 成 数据 ， 
LinkedIn 将 职业 社交 网 络 转化 成 数据 。 


数据 化 是 一 个 很 有 趣 的 概念 ， 我 们 在 重视 它 的 同时 ， 必 须 尊重 他 人 的 意愿 一 是 否 自愿 与 
人 们 分 享 自己 的 数据 。 比 如 ， 在 网 上 为 某 个 人 或 某 件 东西 “点 赞 ” 时 ， 人 们 要 么 是 故意 让 
自己 的 行为 “被 数据 化 ”， 要 么 最 低 限 度 上 也 清楚 自己 的 行为 会 被 记录 下 来 。 但 有 了 时 却 不 
R, 我 们 只 是 随意 浏览 一 些 网 站 ， 我 们 的 行为 却 被 网 站 上 的 cookie 记录 下 来 ， 我 们 走 进 商 
店 ， 或 者 只 是 走 在 大 街 上 ， 会 被 各 种 传感器 、 摄 像 头 监测 ， 或 者 被 谷歌 眼镜 拍摄 ， 我 们 的 
行为 被 作为 数据 存储 下 来 ， 而 这 种 数据 化 并 非 出 于 我 们 的 意愿 。 


数据 化 无 所 不 在 ， 从 作为 实验 对 象 参 与 到 社交 媒体 实验 中 ， 到 接受 全 面 调查 ， 再 到 被 人 秘 
























































4 | 第 1 章 


密 跟 踪 ， 这 些 都 是 被 数据 化 的 典型 案例 ， 它 们 代表 了 数据 化 过 程 中 个 人 意愿 从 高 到 低 的 各 
种 情形 ， 但 其 产生 的 结果 却 远 不 能 如 此 简单 地 划分 概括 。 


在 文章 中 他 们 又 说 : 





“一 旦 我 们 可 将 问题 数据 化 ， 就 能 改变 人 们 的 意图 ， 并 在 这 些 信 息 基 础 上 产生 新 
价值 。 
本 书 会 不 时 提出 这 样 一 个 问题 : 究竟 谁 才 算 “ 我 们 ”? “新 的 价值 ”是 什么 ? 在 他 们 的 文 
章 中 ,“ 我 们 ”显然 指 那些 模型 和 企业 ， 他 们 引导 用 户 购 买 更 多 的 产品 ， 赚 取 更 多 的 钱 ， 
“新 价值 ” 则 指 那些 能 提高 效率 的 方法 ， 比 如 通过 自动 化 等 。 




















如 果 将 视野 放 得 更 大 ， 将 这 里 的 “我 们 ” 指 代 更 广泛 的 人 类 ， 那 就 有 点 逆 潮 流 而 行 的 意思 
了 。 在 面 对 数 据 化 的 大 潮 时 ， 我 们 或 许 会 有 所 保留 。 


1.4 数据 科学 的 现状 和 历史 


那么 ， 到 底 什 么 是 数据 科学 ? 它 是 一 门 新 生 事物 ， 还 是 统计 学 的 旧 瓶 子 里 装 了 新 酒 ? 它 是 
纯粹 的 炒作 ， 还 是 确 有 其 事 ? 如果 它 是 一 门 实 实在 在 的 新 兴学 科 ， 它 的 意义 何在 ? 


























让 我 们 先 上 网 看 看 业界 关于 这 一 问题 的 讨论 ， 这 不 一 定 能 直接 回答 我 们 的 问题 ， 但 听 听 
别人 怎么 说 总 是 有 益 的 。2010 年 ，Quora 网 站 有 一 个 关于 “什么 是 数据 科学 ”的 提问 ， 
Metamarket 公司 的 CEO Mike Driscoll 的 回答 如 下 : 





研究 数据 科学 ， 一 方面 需要 如 极 客 那 般 刻苦 钻研 ， 一 方面 需要 像 统 计 学 家 那样 拥 
有 完美 的 理论 。 

数据 科学 家 不 仅仅 是 极 客 一 一 极 客 只 关心 如 何 调试 一 行 Bash 脚本 或 Pig 脚本 ， 没 
人 会 在 意 非 欧 氏 距离 矩阵 。 

数据 科学 家 也 不 仅仅 是 统计 学 家 一 一 后 者 只 关注 如 何 完成 一 个 理论 的 证 明 或 构建 
出 一 个 完美 的 模型 ， 很 少 有 人 会 使 用 及 语言 将 数据 文件 读 入 系统 ， 从 而 进行 后 续 
的 分 析 。 

数据 科学 是 一 门 关于 数据 的 工程 ， 它 需要 同时 具备 理论 基础 和 工程 经 验 ， 需 要 掌 
握 各 种 工具 的 用 法 。 


Driscoll 随后 引用 了 2010 年 Drew Conway 的 韦 恩 图 来 说 明 研究 数据 科学 需要 的 技能 ， 如 图 
1-1 所 示 。 
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图 1-1: Drew Conway 的 数据 科学 韦 恩 图 


Driscoll 还 引用 了 Nathan Yau 2009 年 的 一 个 关于 “数据 科学 家 正在 涌现 ”(Rise of the Data 
Scientist) 的 帖子 ， 其 中 介绍 了 数据 科学 家 们 应 该 具备 的 各 种 技能 : 


。 统计 学 (做 传统 分 析 时 需要 的 技能 ) ， 
。 数据 处 理 (解析 、 提 取 和 格式 化 数据 ) ， 
。 IE (AR, IRS). 


但 是 先 别 忙 ， 如 此 说 来 ,数据 科 学 就 是 这 些 技术 的 一 个 简单 的 组 合 吗 ?抑或 是 诸如 统计 
学 、 机 器 学 习 等 学 科 的 一 个 逻辑 上 的 扩展 ? 

Cosma Shalizi' fil Cathy" 分别 就 统计 学 家 和 数据 科学 家 的 区 别 这 一 问题 发 表 了 很 多 看 法 。 
Cosma 认为 ， 任 何 一 个 够 格 的 统计 部 门 都 在 从 事 数 据 科 学 的 工作 ， 数 据 科学 只 不 过 是 统计 
学 换 了 个 新 说 法 。 

持 此 观点 的 还 有 ASA 主席 Nancy Geller， 她 在 2011 年 发 表 的 一 篇 文章 “Don’t shun the ‘S 
word” 中 说 : 








iE 1: http://goo.gl/SO7ceN 和 http://goo.gl/pXg1fU。 
注 2: http://goo.g/F4K4hE 和 http://goo.gl/X9Bmxj. 
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我 们 要 告诉 人 们 : 是 统计 学 家 揭示 出 数据 的 含义 。 在 21 世纪 ， 各行 各 业者 涌现 
出 了 海量 的 数据 ， 无 论 是 科学 、 工 程 还 是 医学 ， 从 文学 史 到 动物 学 ， 人 们 在 处 理 
这 些 数据 时 都 应 用 了 统计 学 技术 。 这 种 数据 大 爆炸 ， 为 统计 学 者 提出 了 源源 不 断 
的 研究 课题 ， 因 此 在 这 个 时 代 从 事 统计 学 工作 是 一 件 相当 令 人 兴奋 的 事 。 


Nancy 以 为 用 “从 文学 史 (Art history). 到 动物 学 (Zoology)” 这 种 说 法 ， 就 可 以 巧妙 地 暗 
喻 “从 头 到 尾 ”) 的 概念 ,代表 了 数据 科学 的 应 用 无 处 不 在 。 但 她 这 种 说 法 却 是 搬 起 石头 砸 
了 自己 的 脚 ， 因 为 她 所 罗列 的 全 是 学 术 界 的 例子 ， 恰 恰 不 包含 高 新 技术 企业 ， 而 业界 才 是 
数据 爆炸 式 增 长 最 迅猛 的 地 方 ， 数 据 科 学 也 是 在 这 些 高 新 技术 企业 里 得 到 了 长 足 的 发 展 。 
在 企业 中 ， 会 有 数据 科学 家 的 职位 ， 但 这 一 称号 在 学 术 界 还 很 少见 到 (或 许 这 点 会 慢 慢 
改变 )。 





^ AA lij DJ Patil 和 Jeff Hammerbacher 讲述 了 2008 年 ， 他 们 是 如 何 分 别 在 LinkedIn 和 
Facebook 上 定义 了 “数据 科学 家 ”这 一 称谓 的 。2008 年 ,“ 数 据 科 学 家 ”成 为 一 个 职位 ， 
出 现在 这 两 家 公司 的 招聘 信息 里 (维基 百科 于 2012 年 增加 了 数据 科学 的 相关 词 条 )。 


当 一 组 技术 在 谷歌 得 到 追捧 ， 而 且 这 种 势头 蔓延 到 硅谷 的 其 他 高 科技 公司 时 ， 一 个 新 的 职 
位 就 会 出 现 ， 而 当 这 成 为 常态 ， 人 们 就 需要 给 它 一 个 全 新 的 名 字 ， 比 如 数据 科学 家 。 当 这 
个 新 名 字 声 名 远 播 ， 所 有 人 都 希望 自己 成 为 一 名 数据 科学 家 。《 哈 佛 商业 评论 》(Harvard 
Business Review) 把 数据 科学 家 誉 为 “21 世纪 最 性 感 的 工作 ”， 这 无 疑 是 火 上 浇 油 。 

















社会 学 家 在 数据 科学 中 的 角色 


LinkedIn 和 Facebook 都 是 做 社交 网 络 的 公司 ， 他 们 所 谓 的 数据 科学 家 经 常 是 对 统计 学 
家 、 软 件 工程 师 和 社会 学 家 的 统称 。 这 很 好 理解 ， 因 为 他 们 的 产品 就 是 社交 工具 ， 主 
要 处 理 的 内 容 是 个 人 (用户) 行为 。 但 是 根据 Drew Conway 的 韦 因 图， 数据 科学 所 研 
完 的 问题 经 常 是 跨 领 域 的 ， 也 就 是 需要 大 量 的 “实务 知识 ”( 见 图 1-1)。 

也 ,就 是 说 ， 数 据 科 学 家 要 用 到 哪些 “实务 知识 ”， 就 要 具体 问题 具体 分 析 了 。 如 果 你 要 
解决 的 是 跟 社 交 网 络 相关 的 问题 ， 比 如 说 “好 友 推 荐 "”“ 可 能 认识 的 人 ”以 及 “用 户 分 
类 ”等 ， 那 一 定 要 把 社会 学 家 拉 进 来 。 社 会 学 家 大 多 都 擅 于 提问 ， 他 们 也 热爱 调查 研 
完 ， 如 果 他 们 再 会 定量 分 析 和 编程 ， 肯 定 会 成 为 优秀 的 数据 科学 家 。 

由 于 “历史 ”的 原因 (其 实 不 过 是 2008 年 的 事 )， 人 们 认为 数据 科学 家 的 工作 只 是 负 
责 分 析 在 线 用 户 的 行为 数据 。 而 现在 兴起 了 一 个 全 新 研究 领域 ， 它 被 称 作 “计算 社会 
科学 ”， 我 们 可 以 将 其 视 作 数据 科学 的 一 个 子 集 。 











让 我 们 回 到 更 早 的 2001 年 ， 当 时 William Cleveland 写 了 一 篇 关于 数据 科学 的 文章 “Data 


Science: An action plan to expand the field of statistics" 。 








注 3: from atoz， 意 即 “ 完 全 、 彻 底 ”。 
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那么 ， 是 先 有 的 数据 科学 还 是 先 有 的 数据 科学 家 ? 


这 就 引出 了 一 系列 问题 ， 我 们 能 通过 数据 科学 家 的 工作 来 定义 数据 科学 吗 ? 谁 有 资格 定义 
这 个 全 新 的 学 科 ? 媒体 制造 了 很 多 关于 数据 科学 的 时 散 用 语 ， 但 他 们 有 资格 定义 吗 ? 我 
们 需要 依赖 于 这 些 自 读 的 数据 科学 家 吗 ? 到 底 有 设 有 这 样 一 个 权威 机 构 ? 我 们 暂且 不 子 
回答 。 























数据 科学 的 职位 

在 布 隆 伯 格 的 帮助 下 ， 哥 伦比 亚 大 学 决定 成 立 一 个 新 的 研究 所 用 于 数据 科学 和 工程 方面 的 
研究 。 据 我 们 上 一 次 统计 ， 仅 在 纽约 就 有 465 个 数据 科学 的 就 业 机 会 。 即 使 数据 科学 还 算 
不 上 一 个 真正 的 领域 ， 但 它 已 经 在 产生 实 实在 在 的 工作 职位 了 。 


在 这 些 招 聘 职位 的 描述 中 我 们 发 现 ， 数 据 科 学 家 被 要 求 具备 计算 机 科学 、 统 计 学 、 传 播 
学 、 数 据 可 视 化 等 领域 的 知识 ， 还 要 是 一 个 “通才 ”"。 但 事实 上 ,没有 人 能 如 此 面面俱到 ， 
因此 组 建 一 个 具备 多 种 技能 的 团队 更 为 可 行 。 通 过 组 建 团队 让 不 同 领 域 的 专家 通力 合作 ， 
这 基本 上 就 可 以 达到 数据 科学 家 的 “通才 ”的 要 求 了 。 我 们 先 来 看 看 现今 的 数据 科学 家 需 
要 具备 哪些 素质 。 


1.5 数据 科学 的 知识 结构 
在 数据 科学 导论 的 课堂 上 ，Rachel 发 给 每 个 学 生 一 张 卡 片 ， 让 他 们 根据 在 如 下 领域 的 技能 
水 平 填写 自己 的 知识 结构 : 


。 计算 机 科学 

。 数学 

。 统计 学 

。 机 器 学 习 

。 某 一 领域 的 专业 知识 
。 沟通 和 演讲 的 技巧 
。 数据 可 视 化 


图 1-2 显示 了 Rachel 在 数据 科学 方面 的 知识 结构 。 


















































数据 科学 家 的 知识 结构 





数据 ”机 器 数学 ”统计 学 计算 机 ”沟通 ”领域 
可 视 化 Žž 科学 。 ”技巧 。 ”知识 











图 1-2. Rachel 的 数据 科学 知识 结构 ， 她 试图 以 此 图 描绘 一 个 数据 科学 家 应 该 具备 的 技能 。 她 希望 
学 生 们 和 客座 讲师 们 都 能 绘制 自己 的 图 谱 ， 并 且 通 过 这 样 的 自我 检视 来 发 现 知识 结构 中 存在 的 不 足 


我 们 把 这 些 卡片 钉 在 黑板 上 审视 一 番 ， 发 现 个 体 之 间 技能 上 的 差异 还 是 很 大 的 ， 这 点 让 我 
们 很 满意 。 比 如 说 ， 学 生 中 很 多 都 拥有 社会 学 的 教育 背景 。 

你 在 数据 科学 方面 的 知识 结构 是 什么 样子 的 呢 ? 你 想 它 在 几 个 月 后 变 成 什么 样 呢 ? JLE 
呢 ? 

像 我 们 早先 提 到 的 那样 ， 最 佳 选择 可 能 就 是 让 拥有 不 同 技能 的 人 组 成 团队 进行 数据 科学 方 
面 的 工作 ， 因 为 没 人 可 以 掌握 所 有 的 知识 。 于 是 ， 我 们 开始 思考 ， 相 较 于 定义 “数据 科学 
家 ”， 是 否定 义 “数据 科学 团队 ”更 有 意义 ? 图 1-3 定义 了 一 个 数据 科学 团队 。 
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没有 人 会 是 完美 的 数据 科学 家 ， 所 以 我 们 需要 团队 


ulli Edd all 


lusu amc 








数据 机 器 数学 ”统计 学 ”计算 机 沟通 AR 
可 视 化 ”学习 科学 RDI 知识 























图 1-3: 数据 科学 团队 的 知识 结构 由 每 个 成 员 的 知识 结构 二 加 而 来 ， 在 组 建 团队 时 ， 要 让 团队 技能 与 
所 解决 的 问题 大 致 匹配 〈 另 见 彩 插图 1-3) 


每 一 节 课 上 都 会 有 一 个 “思维 实验 ”的 环节 ， 我 们 把 学 生 分 成 小 组 来 讨论 问题 。 很 多 问题 
都 是 开放 性 的 ， 我 们 只 想 借 此 引发 学 生 就 数据 科学 的 相关 问题 展开 更 广泛 的 讨论 。 在 第 一 
节 课 上 ， 我 们 的 思维 实验 是 : 可 以 通过 数据 科学 的 手段 来 定义 数据 科学 吗 ? 


通过 分 组 讨论 ， 同 学 们 提出 了 一 些 有 意思 的 想法 。 


。 使 用 文本 挖 据 模 型 
首先 在 谷歌 上 搜索 “data science”( 数 据 科学 )， 对 搜索 结果 进行 文本 挖 据 。 但 在 语言 的 
选用 上 ， 使 用 者 和 从 业者 的 原则 是 截然 不 同 的 。 作 为 使 用 者 ， 我 们 会 采用 大 众 的 定义 
(所 谓 大 众 的 定义 ， 即 通过 谷歌 搜索 得 来 的 结果 )。 而 对 于 从 业者 而 言 ， 若 能 引用 权威 渠 
道 (比如 《牛津 英语 词典 》) 的 说 法 来 定义 数据 科学 会 更 严谨 一 些 ,但 可 惜 的 是 这 些 词 
汇 恕 怕 尚未 收入 其 中 ， 而 且 我 们 也 没有 耐心 去 等 待 了 。 所 以 ， 我 们 不 得 不 承认 ， 数 据 科 
学 的 定义 包罗 万 象 ， 但 目前 没有 一 种 定义 能 让 各 方 都 满意 。 
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。 RARE 
何不 考虑 数据 科学 的 从 业者 ， 看 看 他 们 是 怎么 形容 自己 的 工作 的 (也许 最 开始 是 “单词 
云 ”的 形式 ) ? 然后， 我 们 再 看 看 其 他 行业 的 从 业者 ， 比 如 统计 学 家 、 物 理学 家 、 经 济 
学 家 ， 看 看 他 们 又 是 怎么 形容 自己 的 工作 的 。 然 后 ， 我 们 使 用 聚 类 算法 (将 在 第 3 章 用 
到 ) 或 者 其 他 模型 ,看 看 根据 对 工作 内 容 的 接 述 ， 是 否 可 以 预测 出 其 从 事 的 行业 。 


作为 对 比 ， 让 我 们 来 看 看 Harlan Harris 是 如 何 进行 调查 ， 使 用 聚 类 算法 定义 数据 科学 的 子 
领域 的 ， 如 图 1-4 所 示 : 








技能 和 自我 认 知 的 主要 元 素 
数据 商业 用 户 数据 制造 者 ”数据 开发 者 数据 研究 者 











2 
= 


图 1-4: 此 图 使 用 聚 类 算法 描述 了 数据 科学 的 子 领 域 ， 源 自 Harlan Harris, Sean Murphy 和 Marck 
Vaisman 基于 2012 年 年 中 对 数 百名 数据 科学 从 业者 的 调查 所 著 的 Analyzing the Analyzers 
(O'Reilly) 〈 另 见 彩 插图 1-4) 


学 家 
1.7 什么 是 数据 科学 
也 许 定义 数据 科学 最 具体 的 方式 是 看 它 如 何 被 使 用 ， 比 如 雇主 们 都 花 钱 让 数据 科学 家 去 做 
哪些 工作 。 以 此 为 目的 ， 我 们 将 会 具体 说 说 数据 科学 家 究竟 都 在 干什么 ， 不 过 我 们 先 来 看 
看 学 术 界 。 
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1.7.1 学 术 界 对 数据 科学 家 的 定义 

在 学 术 界 ， 现 在 还 没 人 称 自己 是 数据 科学 家 ， 除 非 他 们 工作 于 某 大 学 的 “数据 科学 研究 
所 ”， 或 者 在 申请 数据 科学 研究 的 经 费 ， 这 时 ， 他 们 才 锡 强 将 数据 科学 家 作为 自己 的 第 二 
称谓 。 


不 如 我 们 问 另 外 一 个 问题 : 在 学 术 界 ， 哪 些 人 打算 成 为 数据 科学 家 ? 在 哥伦比亚 大 学 的 数 
据 科 学 导论 课 学 习 的 有 60 E, Rachel 打算 开设 此 课时 ， 估 计 这 门 课 的 学 生 主要 来 自 
统计 学 系 、 应 用 数学 系 和 计算 机 科学 系 。 事实 上 ， 后 来 学 生 背 景 的 多 样 化 大 大 超出 了 她 的 
TRIB. 除 过 上 述 三 个 领域 之 外 ， 她 的 学 生还 有 来 自 社会 学 、 新 闻 学 、 政 治学 、 生 物 医学 信 
息 学 、 建 筑 学 、 环 境 工程 、 纯 数学 和 商业 学 院 的 ， 此 外 还 有 来 自 纽约 市 政府 机 构 以 及 关注 
社会 福利 的 非 盘 利 性 机 构 人 员 。 其 中 不 乏 一 些 已 经 在 从 事 数据 科学 工作 的 人 。 他 们 都 很 希 
望 能 使 用 数据 去 解决 一 些 重要 的 问题 ,通常 这 些 重 要 问题 具有 重要 的 社会 价值 。 









































想 要 使 “数据 科学 ”在 学 术 界 立 得 住 脚 ， 其 所 要 研究 的 领域 应 该 有 更 规范 的 定义 。 值 得 一 
提 的 是 ， 现 在 数据 科学 领域 已 经 有 很 多 可 以 转化 成 博士 论文 的 研究 课题 。 


让 我 们 试 着 定义 数据 科学 家 : 一 个 学 术 界 的 数据 科学 家 首先 是 个 科学 家 ， 他 接受 了 任何 其 
他 学 科 的 训练 〈 从 社会 学 到 生物 学 等 各 种 学 科 )， 还 要 同 大 量 的 数据 打交道 ， 不 管 这 些 数 
据 的 结构 、 规 模 以 及 复杂 程度 如 何 ， 他 都 能 挖掘 出 数据 背后 的 意义 ， 从 而 解决 现实 世界 中 
的 问题 。 














上 述 例子 说 明 ， 在 不 同 的 学 术 领 域 人 们 面临 的 计算 和 座 度 数据 问题 都 存在 较 大 的 共性 。 若 
不 同 机 构 的 研究 者 通力 合作 ， 他 们 就 可 以 解决 各 个 领域 的 现实 问题 。 





1.7.2 ”工业 界 对 数据 科学 家 的 定义 

那么 工业 界 的 数据 科学 家 又 在 做 些 什么 ”这 取决 于 数据 科学 家 的 资深 程度 以 及 是 否 将 数据 
科学 特别 限定 在 互联 网 领域 。 数 据 科学 家 这 个 职位 也 不 是 只 有 科技 界 才 有 ， 但 是 数据 科学 
这 个 词 的 确 源 自 科技 界 ， 为 了 避免 混淆 ， 我 们 就 将 业界 特 指 为 科技 界 。 


首席 数据 科学 家 将 为 公司 设 定数 据 策略 ， 这 包括 筹建 用 于 收集 数据 和 记录 日 志 的 基础 架 
构 ， 确 定 如 何在 收集 数据 的 同时 保护 隐私 、 哪 些 数据 是 面向 用 户 的 、 如 何 使 用 数据 做 决 
策 ， 又 如 何 把 这 些 数据 反 过 来 应 用 于 产品 设计 ， 提 升 产 品质 量 。 他 要 管理 一 个 由 工程 师 、 
科学 家 和 分 析 师 组 成 的 团队 ， 还 要 负责 和 公司 的 管理 层 (如 CEO、CTO 等 ) 进行 沟通 。 
他 还 负责 为 创新 性 的 成 果 申 请 专利 和 设 定 研究 目标 。 

更 广泛 地 看 ， 数 据 科学 家 是 这 样 一 种 人 ， 他 懂得 如 何 从 数据 中 抽取 信息 并 且 解 释 数据 背后 
的 意义 ， 这 需要 掌握 统计 学 和 机 器 学 习 中 的 工具 和 方法 ， 还 要 具备 人 文 主义 精神 。 他 要 花 
费 大 量 时 间 来 采集 、 清 理 和 处 理 数 据 ， 因 为 数据 永远 都 不 会 是 整齐 规范 到 让 人 一 眼 可 以 读 
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懂 的 。 在 这 个 过 程 中 ， 他 需要 坚持 不 懈 ， 需 要 统计 学 和 软件 工程 的 技巧 ， 而 这 些 也 是 理解 
数据 的 偏差 、 调 试 程序 时 所 必 备 的 技能 。 


当 数据 被 整理 成 型 后 ， 他 需要 结合 可 视 化 和 数据 的 意义 对 数据 进行 探索 分 析 。 他 会 找 出 模 
式 ， 构 建 模 型 ， 设 计算 法 一 一 有 些 是 为 了 了 解 产 品 的 使 用 情况 和 整体 质量 ， 有 些 是 为 了 搭 
建 原 型 ， 将 在 这 些 原型 上 经 过 验证 的 东西 重新 揉 入 产品 中 ， 从 而 提升 产品 品质 。 他 会 设计 
实验 ， 他 是 基于 数据 做 出 决策 这 一 过 程 中 的 关键 一 环 。 他 要 使 用 明白 无 误 的 语言 和 图 形 同 
组 内 成 员 、 工 程 师 、 领 导 层 交流 ， 即 使 有 人 对 数据 不 是 很 敏感 ， 也 可 以 通过 他 知道 这 些 数 
据 背后 的 意义 。 


这 就 是 对 数据 科学 的 一 个 概览 ， 本 书 将 帮助 你 了 解 其 中 大 多 数 内 容 。 接 下 来 ， 让 我 们 停止 
空谈 ， 开 始 进入 数据 科学 的 实战 阶段 ! 
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第 2 章 
统计 推断 、 探 索性 数据 分 析 和 
数据 科学 工作 流程 





在 本 章 ， 我 们 首先 讨论 统计 推断 和 统计 学 的 思 埃 方式 ， 然 后 我 们 将 目光 转向 每 一 位 数据 科 
学 家 都 会 从 事 的 工作 : 探索 性 数据 分 析 。 我 们 还 将 详细 了 解 研 究 数 据 科学 的 工作 流程 ， 在 
本 章 的 结尾 ， 是 我 们 的 “思维 实验 ”环节 和 一 个 案例 学 习 。 


BH > i pe, 
2.1 大 数据 时 代 的 统计 学 思考 
“大 数据 这 个 词 现 在 时 常 被 人 们 随意 使 用 ， 然 而 其 语义 十 分 模糊 。 简 单 地 说 ， 这 
个 包罗 万 象 的 词 条 一 般 有 三 层 含 义 : 首先 ， 它 指 代 一 揽 子 的 技术 ; 其 次 ， 它 有 可 
能 引发 一 场 度量 数据 规模 的 革命 ; 最 后 ， 它 为 人 们 未 来 将 会 、 其 或 是 应 该 如 何 制 
定 决策 提供 了 一 个 新 视角 ， 一 种 新 理念 。” 





一 一 史 蒂 夫 . 洛 尔 (Steve Lohr) 
《纽约 时 报 》 
在 你 打算 成 为 一 名 数据 科学 家 时 ， 以 下 技能 是 必须 首先 具备 的 : 统计 学 、 线 性 代数 和 一 些 
编程 技能 。 同 时 你 还 需要 发 展 以 下 技能 : 数据 预 处 理 、 数 据 再 加 工 、 数 据 建 模 、 编 码 、 可 
视 化 和 有 效 沟 通 ， 这 些 技能 往往 是 相辅相成 的 。 这 些 内 容 会 在 本 书 中 交叉 出 现 ， 万 丈 高 楼 
平地 起 ， 让 我 们 先 从 统计 推断 开始 探索 数据 科学 的 旅程 。 


作者 希望 本 书 的 读者 拥有 五 花 八 门 的 背景 ， 你 可 能 是 位 优秀 的 软件 工程 师 ， 有 能 力 搭建 数 














据 管道 ， 但 对 统计 学 却 所 知 其 少 ; 或 者 你 是 一 位 市 场 分 析 专 员 ， 一 点 也 不 懂 如 何 编 写 程 
序 ; 或 者 你 只 是 一 位 对 数据 科学 充满 好 奇 的 读者 ， 想 弄 明 白 数 据 科学 到 底 是 什么 。 





虽然 我 们 在 这 里 列举 了 阅读 本 书 需 要 具备 的 一 些 先 决 条 件 ， 但 我 们 不 是 查 户口 的 ， 无 法 到 
你 家 去 检查 你 是 否 修 习 过 有 关 统 计 学 的 课程 ， 或 者 是 否 曾经 看 过 有 关 统 计 学 的 书籍 。 即 使 
你 曾经 选修 过 诸如 统计 学 导论 之 类 的 入 门 课程 ， 但 正如 我 们 在 鸡尾酒 会 上 经 常 听 到 的 那 
样 ，99% 的 人 都 十 分 惧怕 统计 学 ， 宁 愿 从 来 设 上 过 这 门 课 。 如 此 说 来 ， 你 不 大 可 能 从 这 些 
课程 中 真正 领略 到 了 统计 学 的 美妙 ， 更 不 可 能 深入 研究 它 。 

















即使 你 取得 了 统计 学 的 博士 学 位 ， 已 经 对 这 一 领域 有 精深 的 研究 ， 你 也 可 以 通过 阅读 本 书 
回顾 一 些 基 础 概念 ， 记 起 什么 是 统计 推断 、 什 么 是 统计 学 的 思考 方式 ， 这 总 是 有 所 助 益 
的 ， 特 别 在 “大 数据 ”时 代 这 个 全 新 的 语 境 下 ， 很 多 传统 的 统计 学 方法 可 能 都 需要 重新 审 
视 和 修订 。 








2.1.1 统计 推断 
我 们 所 处 的 世界 异常 复杂 ， 充 满 了 随机 性 和 不 确定 性 ， 同 时 ， 这 个 世界 又 是 一 个 巨大 的 数 
据 生 产 机 器 。 


我 们 搭 地 铁 或 开车 去 工作 ， 我 们 的 血液 在 身体 里 流动 ， 我 们 购物 、 收 发 电子 邮件 、 因 浏览 
网 页 或 查看 股价 而 耽误 正事 ， 我 们 工作 、 吃 饭 、 和 朋友 家 人 聊天 ; 工厂 里 生产 产品 …… 这 
些 行为 都 会 直接 或 间接 产生 数据 。 


试想 花 一 天 时 间 去 观察 窗外 的 人 流 ， 记 录 下 每 一 个 经 过 的 人 ;或 者 聚集 起 住 在 你 一 公里 以 
内 的 人 ， 问 他 们 在 过 去 的 一 年 中 每 天 收 到 多 少 封 电子 邮件 ， 或 者 去 你 附近 的 社区 医院 翻阅 
血液 样本 ， 去 发 现 纺 藏 在 其 中 的 DNA 模式 ， 这 些 行为 年 一 听觉 得 有 点 变态 ， 让 人 觉得 不 
安 ， 但 事实 并 非 如 此 。 我 们 的 生活 本 身 就 是 不 断 产 生 数 据 的 过 程 。 


我 们 想 用 多 种 方式 去 描述 、 揭 示 这 些 过程 ， 使 人 们 更 好 地 理解 数据 的 产生 。 作 为 科学 家 ， 
我 们 想 更 好 地 了 解 这 个 世界 。 对 过 程 的 了 解 掌握 ， 也 是 解决 问题 的 一 部 分 。 


数据 就 是 现实 世界 运转 留 下 的 痕迹 。 而 这 些 痕迹 会 被 如 何 展示 出 来 ， 则 取决 于 我 们 采用 什 
么 样 的 数据 收集 和 样本 采集 方法 。 假 如 你 是 数据 科学 家 ， 那 么 作为 一 个 观察 者 ， 你 要 做 的 
事 是 将 具象 的 世界 转化 为 抽象 的 数据 ， 这 个 过 程 是 绝对 主观 的 ， 而 非 人 们 所 想 的 那么 中 立 
客观 。 


将 这 一 过 程 从 数据 收集 中 和 剥离 出 来 ， 就 能 清晰 地 看 到 强 藏 其 中 的 随机 性 和 不 确定 性 的 两 个 
源头 : 一 是 来 自 过 程 本 身 ， 二 是 来 自 数据 采集 方法 。 

从 革 种 程度 上 说 ， 掌 握 了 数据 就 掌握 了 世界 ， 或 者 世界 的 运作 规律 ， 但 是 这 并 不 代表 着 ， 
你 拿 着 一 个 巨大 的 Excel 文件 ， 或 者 存 有 数 百 万 条 记录 的 数据 库 ， 手 指 轻 轻 一 划 ， 就 能 理 
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解 世界 及 其 运行 规律 。 


你 需要 新 的 点 子 ， 将 这 些 采集 到 的 数据 进行 简化 ， 使 它们 更 易于 理解 ， 能 够 以 一 种 更 简明 
扼要 的 方式 概述 世界 运行 的 规律 能够 易于 使 用 数学 对 其 进行 建 模 的 数据 ， 这 称 为 统计 估 
计量 。 











这 一 套 从 现实 世界 到 数据 ， 再 由 数据 到 现实 世界 的 流程 就 是 统计 推断 的 领域 。 


更 准确 地 说 ， 统 计 推断 这 门 学 科 主 要 关注 如 何 从 随机 过 程 产生 的 数据 中 提取 信息 ， 它 是 流 
程 、 方 法 和 理论 的 统 


2.1.2. 总 体 和 样本 


让 我 们 先 来 统一 一 些 术 语 和 概念 。 


在 经 典 统计 学 理论 中 ， 有 总 体 和 样本 之 分 。 英 语 中 总 体 和 人 口 是 同一 个 单词 ， 因 此 一 说 这 
个 词 ， 人 们 就 会 马上 联想 到 : 美国 人 口 总 数 3 亿 、 全 世界 人 口 总 数 70 亿 等 。 但 是 ， 在 统 
计 推 断 中 ， 总 体 并 不 特 指 人 口 ， 它 指 的 是 一 组 特定 的 对 象 或 单位 ， 比 如 推 特 上 发 布 的 消 
息 ， 照 片 或 者 天 上 的 星星 等 。 


如 果 我 们 可 以 度量 和 提取 这 些 对 象 的 某 些 特征 ， 就 称 为 对 总 体 的 一 组 观察 数据 ， 习 惯 上 ， 
使 用 NN 表示 对 总 体 的 观 罕 次 数 。 


假设 总 体 为 去 年 “ 巨 无 霸 ” 公 司 员工 发 送 的 所 有 电子 邮件 ， 则 对 该 总 体 的 一 组 观察 数据 可 
以 包括 以 下 内 容 : 发 信人 的 姓名 、 收 信人 列表 、 发 信 日 期 、 邮 件 内 容 、 邮 件 字 数 、 邮 件 中 
的 句子 数 、 邮 件 中 动词 的 个 数 、 从 邮件 发 出 到 获得 第 一 次 回复 中 间 的 时 间 等 。 


接 下 来 就 要 采集 样本 。 所 谓 样本 ,是 指 在 总 体 中 选取 的 一 个 子 集 ， 用 n 来 表示 。 研 究 者 记 
录 下 样本 的 观察 数据 ， 根 据 样本 特征 推断 总 体 的 情况 。 采 样 的 方法 多 种 多 样 ， 有 些 采 样 方 
法 会 存在 偏差 ， 使 得 样本 失真 ， 而 不 能 被 视 为 一 个 缩小 版 的 总 体 ， 去 推断 总 体 的 特征 。 当 
这 种 情况 发 生 时 ， 基 于 样本 分 析 所 推断 出 来 的 结论 常常 是 失真 其 或 完全 错误 的 。 





















































在 上 述 “ 巨 无 霸 ” 公 司 的 例子 中 ， 可 以 随机 抽取 全 部 员工 的 10， 以 他 们 所 发 的 邮件 组 成 
样本 ,或 者 随机 选取 一 天 ， 以 该 天 内 所 发 邮件 的 1/10 作为 样本 。 这 两 种 抽样 方式 都 是 合理 
的 ， 而 且 样本 的 数量 也 是 相等 的 ， 但 是 ， 如 果 你 据 此 计算 每 人 发 送 电子 邮件 的 数量 ， 进 而 
估计 出 “ 巨 无 霸 ” 公 司 员工 的 发 送 邮件 分 布 情况 的 话 ， 应 用 两 种 采样 方式 ， 你 将 会 得 到 完 
全 不 同 的 答案 。 


这 样 一 个 简单 的 问题 ， 由 于 采样 方式 的 不 同 ， 结 果 都 会 失真 ， 那 么 对 于 那些 复杂 的 算法 或 
模型 ,如果 你 没有 把 获取 数据 的 方式 考虑 进来 ， 情 况 又 会 怎样 ? 















































2.1.3 大 数据 的 总 体 和 样本 

在 大 数据 时 代 ， 我 们 有 能 力 记 录用 户 的 所 有 行为 ， 我 们 难道 不 就 可 以 观察 一 切 ? 那么 ， 此 
时 做 总 体 和 样本 的 区 分 还 有 意义 吗 ? 如 果 我 们 已 经 拥有 了 所 有 的 电子 邮件 ， 干 咏 还 要 采 
样 ? 


这 些 疑 问 直 抵 问 题 的 核心 ， 对 此 ， 我 们 有 如 下 几 个 方面 需要 加 以 泣 清 。 



































。 采样 可 以 解决 一 些 工 程 上 的 挑战 
在 时 下 流行 的 关于 大 数据 的 讨论 中 ， 企 业 都 主要 采用 Hadoop 等 分 布 式 技术 去 解决 海量 
数据 带 来 的 工程 及 计算 问题 ， 但 他 们 却 忽略 了 采样 这 种 手段 也 同样 有 效 。 事 实 上 ， 在 谷 
歌 ， 软 件 工程 师 、 数 据 科学 家 和 统计 学 家 时 刻 都 在 用 到 采样 来 处 理 大 数据 。 


使 用 多 少数 据 取决 于 你 的 目标 : 比如 ， 做 分 析 或 推断 ， 你 只 需要 部 分 的 数据 就 可 以 了 ， 
但 当 你 试图 在 用 户 界面 上 展示 其 中 一 个 使 用 者 的 信息 时 ， 你 可 能 需要 搜集 该 使 用 者 的 所 
有 数据 。 

















。 偏差 
即使 我 们 拥有 了 谷歌 、Facebook 或 Twitter 的 所 有 数据 ， 基 于 这 些 数 据 所 做 出 的 统计 扒 
断 并 不 适用 于 其 他 不 使 用 这 些 服 务 的 人 群 ， 即 使 针对 使 用 这 些 服务 的 人 群 ， 上 述 统计 结 
论 也 不 能 准确 说 明 他 们 某 一 天 的 活动 轨迹 。 


微软 研究 院 的 Kate Crawford 女士 在 她 的 演讲 “Hidden Biases of Big Data” 中 提 到 ， 如 果 仅 
对 飓风 又 迪 到 来 前 后 的 推 特 做 分 析 ， 可 能 会 得 出 这 样 的 结论 ， 人 们 在 刚 风 来 临 前 在 购物 ， 
飓风 过 后 在 聚会 。 然 而 ， 这 些 推 特大 部 分 来 自 纽约 人 。 首 先 ， 他 们 是 推 特 的 重度 用 户 ， 而 
这 时 治 海 的 新 绎 西 人 正在 担心 他 们 的 房子 会 不 会 被 由 风 吹 倒 ， 他 们 哪里 还 有 时 间 和 心情 去 
发 推 特 呢 ? 

换 句 话说， 如 果 你 使 用 推 特 数据 来 分 析 桑 迪 刚 风 的 影响 ， 得 出 的 结论 可 能 会 是 : 这 场 飓风 
危害 不 大 。 事 实 上 ， 你 得 出 的 结论 只 能 说 明 风 风 对 推 条 用 户 的 影响 。 他 们 受 桑 迪 飓 风 的 影 
响 很 小 ， 还 有 时 间 来 发 推 特 ， 但 他 们 无 法 代表 一 般 意义 上 的 美国 大 众 。 

同样 在 这 个 例子 中 ， 如 果 你 不 了 解 相 关 的 语 境 或 者 对 桑 迪 飓风 一 无 所 知 ， 你 就 不 可 能 对 数 
据 做 出 合理 的 解释 。 




















。 采样 
让 我 们 再 来 看 看 总 体 和 样本 在 各 种 语 境 下 的 含义 。 

在 统计 学 中 ， 我 们 通常 使 用 一 种 基础 的 数学 方法 来 建 模 ， 描 述 总 体 和 样本 的 关系 。 针 对 背 

后 可 能 存在 的 规律 、 数 学 结构 以 及 生成 数据 的 过 程 ， 我 们 会 做 出 一 些 简 单 假设 。 每 一 次 研 

究 ， 我 们 对 其 中 一 种 数据 生成 过 程 中 所 采集 到 的 数据 进行 观察 ， 这 组 数据 就 是 所 谓 的 样本 。 











统计 推断 、 探 索性 数据 分 析 和 数据 科学 工作 流程 | 17 




















以 “ 巨 无 霸 ” 公 司 的 邮件 为 例 ， 如 果 我 们 随机 抽取 阅读 一 些 邮件 ， 就 会 产生 一 个 样本 。 但 
如 果 我 们 再 次 抽取 ， 又 会 产生 一 组 完全 不 同 的 样本 。 


























由 于 采样 过 程 不 同 所 带 来 的 不 确定 性 有 一 个 学 名 : 取样 分 布 。 就 像 2010 年 上 映 的 、 由 莱 
昂 纳 多 迪 卡 普 里 奥 主 演 的 《 盗 梦 空间 》 一 样 ， 这 是 一 个 梦 中 梦 。 因 此 ， 也 可 以 将 “ 巨 无 
霸 ” 公 司 的 电子 邮件 想象 成 一 个 样本 ， 而 不 是 总 体 。 


这 些 电子 邮件 是 一 个 更 大 的 超级 总 体 的 样本 (此刻 ， 我 们 有 点 哲学 家 附 体 )， 如 果 抽 样 时 
是 用 扔 硬币 来 决定 的 话 ， 硬 币 若 多 翻转 一 次 ， 得 出 的 样本 就 会 完全 不 同 。 


在 这 里 ， 我 们 使 用 一 组 电子 邮件 作为 样本 ， 来 推断 其 中 一 个 数据 产生 的 过 程 ， 比 如 说 : 
“ 巨 无 霸 ” 公 司 员工 的 电子 邮件 书写 习惯 。 
























































。 新 的 数据 类 型 
过 去 ， 所 谓 数据 是 指数 字 和 一 些 分 类 变量 ， 但 今 非 苦 比 。 在 大 数据 时 代 ， 一 个 优秀 的 数 
据 科学 家 需要 多 才 多 艺 ， 要 处 理 的 数据 种 类 比 过 去 要 多 得 多 ， 如 下 所 示 。 


。 传统 数据 : 数字 、 分 类 变量 和 二 进 制 变量 。 

。 XF: 电子 邮件 、 推 特 、《 纽 约 时 报 》 上 的 文章 ( 详 见 第 4 章 和 第 7 章 )。 
。 记录 : 用 户 数据 、 带 有 时 间 惟 的 事件 记录 和 JSON 格式 的 日 志文 件 。 

。 地 理 位 置信 息 数据 : 将 在 本 章 使 用 纽约 市 的 房屋 数据 为 例 做 以 简单 说 明 。 
。 网 络 〈 详 见 第 10 章 )。 

。 传感器 数据 (不 在 本 书 讨论 范围 内 )。 

。 图 片 (不 在 本 书 讨论 范围 内 )。 


这 些 新 的 数据 类 型 要 求 我 们 在 做 采样 时 需 更 谨慎 。 












































以 Facebook 用 户 产生 的 实时 数据 流 为 例 ， 从 带 时 间 故 的 日 志 上 ， 可 以 抓 取 用 户 一 周 内 的 活 
动 数据 ， 在 此 基础 上 进行 分 析 ， 得 出 的 结论 适用 于 下 周 或 者 下 一 年 吗 ? 


在 复杂 的 网 络 中 你 又 如 何 采样 ， 使 得 样本 可 以 反映 总 体 的 复杂 性 ? 


这 些 问 题 都 是 统计 学 和 计算 机 科学 领域 内 的 开放 性 研究 问题 ， 我 们 本 来 就 身 处 科技 的 前 
沿 。 在 实际 中 ， 数 据 科 学 家 尽 其 所 能 去 解决 这 些 问 题 ， 在 他 们 的 工作 中 ， 经 常 发 明 出 一 些 
创新 性 的 方法 。 














术语 : 大 数据 


我 们 已 经 多 次 提 到 了 “大 数据 ”， 但 是 一 直 没 有 好 好 定义 它 ， 只 是 在 上 一 章 中 围绕 它 提 
出 了 一 些 问 题 ， 我 们 也 觉得 不 好 意思 ， 那 就 让 我 们 先 来 看 看 什么 是 大 数据 。 





大 数据 的 大 是 相对 的 。 人 为 地 为 大 数据 限定 一 个 国 值 ， 比 如 1PB， 是 没有 意义 的 ， 这 
太 绝 对 了 。 只 有 当 数 据 的 规模 大 到 对 现 有 技术 (比如 内 存 、 外 存 、 复 杂 程 度 、 处 理 速 
ZF) 构成 挑战 时 ， 才 配 称 为 “大 ”。 因 此 ， 大 数据 的 大 是 一 个 相对 概念 ， 大 数据 放 在 
20 世纪 70 年代 和 现在 的 意义 是 完全 不 同 的 。 

当 用 一 侣 机 器 无 法 处 理 时 ， 就 可 以 称 为 “大 数据 ”"。 不 同 的 人 、 不 同 的 公司 ,拥有 的 计 
算 资源 是 有 差别 的 ， 对 于 数据 科学 家 来 说 ， 如 果 数 据 大 到 一 人 台 机 器 处 理 不 了 ， 就 可 以 
称 其 为 “大 数据 ”"， 因 为 她 不 得 不 学 习 使 用 一 些 全 新 的 工具 和 方法 去 解决 这 一 问题 。 
“大 数据 ”是 一 种 文化 现象 。 它 描述 了 数据 在 人 类 生活 中 所 占 的 比重 ， 随 着 科技 的 发 
展 ， 数 据 所 占 的 比重 越 来 越 大 。 

大 数据 中 的 4V 原则 。 这 4V 是 指 容量 (Volume)、 种 类 (Variety)、 速 度 (Velocity) 
和 价值 (Value)。 很 多 人 借 此 来 描述 大 数据 的 特征 ， 你 也 可 以 从 中 学 习 借 鉴 。 











2.1.4 大 数据 意味 着 大 胆 的 假设 

还 记得 在 第 1 章 ， 我 们 提 到 了 库 克 耶 和 迈 尔 — 舍 恩 伯 格 的 文章 “The Rise of Big Data", 在 
文章 中 ， 他 们 提出 大 数据 的 革命 由 以 下 三 方面 构成 : 

。 采集 和 使 用 大 量 的 数据 ， 而 不 是 小 样本 ; 

。 接受 数据 中 存在 杂乱 噪声 ; 

。 重视 结论 ， 放 弃 探 究 产生 结果 的 原因 。 




















他 们 将 这 三 方面 说 得 冠冕 堂 星 ， 他 们 宣称 ， 数 据 是 如 此 巨大 ， 没 有 必要 去 寻找 原因 。 也 不 
用 担心 采样 出 错 ， 因 为 所 有 的 数据 都 在 这 ， 它 们 记录 了 一 切 事实 。 之 所 以 这 样 说 ， 是 因为 
他 们 声称 找到 了 处 理 大 数据 的 新 方式 ， 那 就 是 让 “N= 全 部 ”。 


入 能 代表 全 部 吗 ? 
答案 是 NN 永远 不 能 代表 全 部 。 我 们 经 常 忽略 那些 我 们 最 应 该 关心 的 事实 。 



































以 InfoWorld 上 的 一 篇 帖子 为 例 ， 互 联网 监控 永远 也 不 可 能 和 奏效， 我们 最 想 抓 住 的 那些 罪 
犯 , 恰恰 是 非常 聪明 、 精 通 技 术 的 ， 他 们 永远 领先 一 步 ， 永 远 也 不 会 被 人 抓 住 。 


那 篇 文章 举 了 一 个 选举 之 夜 投 票 的 例子 ， 这 个 例子 中 本 身 就 存在 矛盾 之 处 : 即使 我 们 能 把 
所 有 离开 投票 站 的 人 都 纳入 统计 ， 我 们 也 还 是 遗漏 了 那些 从 一 开始 就 不 打算 投票 的 人 ， 他 
们 那天 晚上 压根 儿 就 没 来 投票 站 。 而 这 些 人 或 许 才 是 我 们 需要 关注 的 人 群 ， 和 他 们 交谈 才 
能 了 解 我 们 国家 现 有 投票 制度 存在 的 问题 。 

事实 上 ， 我 们 认为 “N = 全 部 ”这 个 假设 是 大 数据 时 代 人 们 面临 的 最 大 问题 。 首 先 ， 这 种 
假设 天 然 地 将 一 大 部 分 人 排除 在 外 ， 他 们 可 能 是 因 疫 有 时 间 、 精 力 、 渠 道 去 参加 那些 非 正 
式 或 者 未 经 宣布 的 选举 投票 。 
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在 统计 选票 时 ， 我 们 忽略 了 那些 同时 打 两 份 工 的 人 ， 还 有 那些 把 时 间 都 花 在 等 公交 车 上 的 
人 ， 他 们 因为 各 种 原因 没有 投票 。 对 你 来 说 ， 这 或 许 只 意味 着 Netflix 的 推荐 引擎 推荐 给 你 
的 电影 不 符合 你 的 口味 ， 因 为 在 Netflix. 上 愿意 费心 去 为 电影 打分 的 大 多 是 年 轻 人 ， 他 们 的 
口味 可 能 和 你 的 不 一 样 ， 这 些 打 分 行为 使 得 推荐 引擎 更 贴近 他 们 的 喜好 。 但 是 ， 上 述 例子 
中 提出 的 基本 观点 在 现实 生活 中 很 可 能 会 埋 下 许多 汶 在 隐患 。 


数据 是 不 客观 的 
车 说 “N = 全 部 ”这 一 假设 可 以 成 立 ， 则 意味 着 要 承认 数据 是 客观 的 。 但 是 ， 相 信和 数据 是 
客观 的 ， 或 者 “让 数据 说 话 ”， 这 些 观点 是 错误 的 ， 当 然 ， 对 于 那些 持 完 全 相反 观点 的 人 
也 应 该 小 心 提防 。 





最 近 ， 我 们 在 《纽约 时 报 》 上 发 表 了 一 篇 关于 运用 大 数据 方法 来 招聘 人 员 的 文章 (http:// 
nytims/18OEq6j) ， 正 是 这 篇 文章 使 我 们 意识 到 上 述 观 点 的 可 怕 。 文 章 中 引述 了 一 位 数据 科 
学 家 的 说 法 :“ 让 我 们 把 所 有 东西 都 放 进来 ， 让 数据 自己 说 话 。 

通读 全 文 后， 你 会 认识 到 ， 运 用 大 数据 运算 法 则 是 为 了 寻找 到 有 次 质 的 “ 开 玉 ” 式 人 才 。 
这 种 做 法 在 招聘 中 值得 一 试 ， 但 是 有 些 事 你 要 深思 熟 虑 。 

假设 你 面前 有 两 位 资历 相当 的 求职 者 ， 一 位 是 男性 ， 一 位 是 女性 。 阅 读 他 们 的 简历 你 发 
现 ， 相 比 之 下 ， 这 位 女性 求职 者 跳槽 次 数 更 多 ， 获 得 提拔 的 机 会 较 少 ， 而 且 对 以 前 工作 过 
的 地 方 有 更 多 的 负面 评价 。 

当 再 有 这 样 的 情况 出 现时 ， 你 若 通 过 模型 做 决策 ， 可 能 会 雇用 男性 而 不 是 女性 求职 者 。 你 
的 模型 是 不 会 把 有 些 公 司 歧视 女性 的 情况 雳 虑 进去 的 。 















































换 名 话说， 忽视 因果 关系 是 大 数据 法 则 的 一 种 缺陷 ， 而 不 是 特征 。 忽 视 因 有 果 关 系 的 模型 无 
助 于 解决 现存 问题 ， 而 只 会 增加 更 多 问题 (在 第 11 章 将 会 予以 详细 说 明 )。 数 据 也 不 会 自 
己 说 话 ， 它 只 能 够 以 一 种 量化 的 、 无 力 的 方式 去 描述 、 再 现 我 们 身边 的 社会 事件 。 





























n =1 


与 “N = 全 部 ”这 一 极端 观点 相反 的 是 另 一 个 极端 : n = 1， 意 思 是 说 样本 的 总 数 为 
1。 过 去 ,说 样本 空间 的 大 小 为 1 是 很 荒 雇 的 ， 没 人 会 通过 观察 一 个 个 体 ， 就 得 出 对 
总 体 的 推断 。 别 担心 ， 这 种 观点 现在 仍然 是 荒 课 的 。 不 过 ， 在 大 数据 时 代 , 1 = 1 有 
了 新 的 含义 ， 对 于 一 个 人 ， 我 们 可 以 记录 所 有 关于 他 的 信息 ， 我 们 可 以 对 所 有 举动 进 
行 采 样 (比如 他 打 过 的 电话 、 他 般 击 键盘 的 记录 )， 并 对 这 些 行 为 进行 统计 推断 。 这 
是 一 种 用 户 级 别 的 建 模 。 














2.1.5 建 模 
下 一 章 将 会 讲述 对 于 采集 到 的 数据 如 何 进行 建 模 ， 本 章 ， 我 们 先 讨 论 什么 叫 建 模 。 





Rachel 曾经 给 一 位 朋友 打 电 话 ， 讨 论 建 模 交 流 会 的 事 ， 几 分 钟 后 她 意识 到 ， "model" 3x4 
单词 对 他 俩 来 说 完全 是 不 同 的 含义 。 对 方 理解 成 了 数据 模型 (data model) ， 一 种 存储 数据 
的 结构 ， 这 属于 数据 库 管 理 员 的 研究 领域 。 而 Rachel 的 意思 是 统计 学 中 的 模型 ， 这 也 是 本 
书 大 部 分 时 间 要 讨论 的 内 容 。 更 可 笑 的 是 ， 最 近 Andrew Gelman 的 一 篇 关于 建 模 的 博客 被 
时 尚 圈 的 人 士 发 到 了 推荐 上 ， 他 们 可 能 理解 成 了 模特 。 








即使 你 已 经 使 用 统计 模型 或 数学 模型 这 两 个 术语 很 多 年 了 ， 但 当 你 向 周围 人 谈 起 模型 时 ， 
你 和 他 们 都 明确 知道 这 个 词 的 含义 吗 ? 什么 使 一 个 模型 成 其 为 模型 ? 当 我 们 癌 起 这 些 基本 
问题 时 ， 还 有 一 个 问题 也 很 重要 ， 统 计 模 型 和 机 器 学 习 算法 之 间 有 什么 不 同 ? 


在 深入 这 些 问 题 之 前 ， 让 我 们 先 来 看 看 Chris Anderson 2008 年 在 《 连 线 》 和 杂志 上 发 表 的 文 
X£ "The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”, 3x 5| A 4f 
议 的 文章 为 我 们 的 讨论 增加 了 更 多 素材 。 值 得 一 提 的 是 ，Chris Anderson 那 时 候 是 《 连 线 》 
杂志 的 主编 。 











Anderson 认为 数据 即 信息 ， 并 且 宣 称 不 需要 模型 ， 了 解 相 关 性 就 够 了 。 以 海量 数据 为 例 ， 
“谷歌 根本 没有 必要 使 用 模型 ”。 


是 这 样 四 ?我 不 相信 ， 读 完 此 书 ， 我 觉得 你 们 也 不 会 相信 。 这 种 观点 类 似 库 克 耶 和 迈 尔 - 
舍 恩 伯 格 在 他 们 的 文章 中 提出 的 “N = 全 部 ”， 我 们 刚刚 在 前 面 讨论 过 。 现 在 ， 你 也 许 已 经 
可 以 感受 到 环绕 在 我 们 周围 的 深 深 的 疑惑 了 吧 。 























然而 我 们 需要 感谢 媒体 ， 是 他 们 让 公众 了 解 了 这 些 问 题 ， 可 是 ， 当 这 些 意 见 领袖 们 并 不 是 
专职 从 事 数 据 科 学 工作 的 人 员 时 ， 对 他 们 的 说 法 就 得 打 一 个 问号 了 。 仔 细 想 想 你 是 否 同意 
Anderson 的 观点 ， 哪 些 部 分 你 认为 是 对 的 ， 哪 些 地方 你 认为 是 错 的 ， 或 者 你 需要 获取 更 多 
言 息 才能 形成 自己 的 观点 。 





鉴于 公众 对 数据 科学 和 模型 的 认 知 都 来 自主 流 媒体 这 样 业余 的 描述 ， 作 为 数据 科学 家 ， 我 
门 应 该 义不容辞 地 发 出 自己 的 声音 ， 贡献 出 自己 的 真知 灼 见 。 











在 这 个 大 背景 之 下 ， 当 我 们 谈 起 模型 时 ， 其 含义 究竟 是 什么 ? 数据 科学 家 是 如 何 使 用 它们 
的 ?让 我 们 直接 进入 下 一 市 ， 来 回答 这 些 问 题 。 


什么 是 模型 ? 

人 类 试图 用 各 种 方式 去 描述 他 们 所 处 的 世界 。 建 筑 学 家 用 蓝图 和 三 维 立体 模型 来 捕捉 建筑 
的 属性 ; 分 子 生 物 学 家 用 连接 氨基 酸 的 三 维 图 像 描 述 蛋 白质 结构 ， 统 计 学 家 和 数据 科学 家 
则 用 函数 表示 产生 数据 的 过 程 中 存在 的 不 确定 性 和 随机 性 ， 并 以 此 来 形容 数据 本 身 的 样 貌 
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模型 就 好 像 一 个 特殊 的 镜片 ， 我 们 透 过 这 个 镜片 去 观察 和 了 解 现实 世界 的 本 质 ， 这 个 “ 镜 
片 ”可 能 是 建筑 学 、 生 物 学 或 数学 模型 。 

模型 是 人 工 设计 的 ， 用 于 将 无 关 紧 要 的 细节 排除 或 抽象 化 。 在 进行 模型 分 析 时 ， 研 究 者 必 
须 关 注 这 些 被 省 略 的 细节 。 




















以 蛋白 质 为 例 ， 一 种 本 身 带 有 侧 链 的 蛋白 质 骨架 却 不 受 规范 电子 运行 轨迹 的 量子 力学 理论 
的 约束 ， 最 终 决 定 了 蛋白 质 的 构架 和 行为 。 以 统计 模型 为 例 ， 建 模 时 我 们 可 能 错误 地 排 
除了 一 些 关键 变量 ， 而 使 用 了 一 些 与 问题 无 关 的 变量 ,或 者 采用 的 数学 结构 偏离 了 问题 
本 身 。 


统计 建 模 

在 引入 数据 和 开始 编写 代码 前 ， 对 于 建 模 的 流程 有 一 个 大 概 的 了 解 是 有 益 的 。 先 干什么 ? 
谁 受 谁 的 影响 ? 什么 是 因 ， 什 么 是 果 ? 检验 结果 如 何 ?” 这些 都 是 我 们 应 该 思考 的 问题 。 

人 们 使 用 的 方法 各 有 不 同 ， 有 些 人 喜欢 用 数学 去 描述 这 种 关系 。 通 用 的 数学 公式 里 面 必须 
包括 参数 ， 但 是 参数 的 值 是 未 知 的 。 

按照 惯例 ， 数 学 公式 里 一 般 使 用 希腊 字母 表示 参数 ， 拉 丁字 母 表 示 数 据 。 比 如 你 有 两 列 数 


H: x 和 y， 你 认为 二 者 之 间 是 线性 关系 ， 用 公式 表达 如 下 : y= bo +pxz， 此 时 你 还 不 知道 
B, 和 pi 的 具体 数值 ， 因 此 ， 它 们 就 是 参数 。 


























还 有 些 人 则 喜欢 画图 。 他 们 先 画 一 张 数据 流 的 图 ， 很 可 能 带 有 箭头 ， 用 来 描述 事物 之 间 是 
怎么 相互 影响 的 ， 或 者 在 一 段 时 间 内 发 生 了 些 什 么 。 在 选择 公式 表达 这 种 关系 之 前 ， 这 种 
关系 图 可 以 给 他 们 一 个 大 概 的 描述 。 


如 何 构建 模型 

你 怎么 知道 什么 数据 该 用 什么 模型 ? 这 一 半 是 艺术 ， 一 半 是 科学 。 这 个 问题 正 是 打开 数据 
科学 大 门 的 钥匙 ， 可 惜 的 是 ， 本 书 中 就 这 个 问题 能 够 给 出 的 指引 非常 有 限 。 只 能 说 模型 的 
选择 是 建 模 过 程 中 的 一 环 ， 你 需要 对 底层 结构 做 出 大 量 假设 ， 应 该 有 一 个 标准 来 规范 如 何 
选择 模型 和 解释 这 样 选 择 的 理由 。 但 是 我 们 还 没有 统一 的 规范 ， 所 以 只 能 摸 着 石头 过 河 ， 
希望 经 过 深思 熟 虑 ， 能 制定 这 样 一 套 规范 。 






































必须 承认 ， 我 们 也 不 知道 从 哪儿 开始 ， 如 果 知 道 的 话 ， 我 们 已 经 知道 了 生命 的 意义 。 但 
是 ， 我 们 会 尽力 ， 尽 力 在 书 中 向 你 展示 我 们 在 面 对 这 样 的 问题 时 要 怎么 做 。 


也 许 探索 性 数据 分 析 (EDA) 是 一 个 好 的 开始 ， 我 们 将 在 下 面 一 市 介绍 它 。 它 牵扯 到 绘制 
图 形 和 从 数据 集中 获取 直观 的 感觉 。 与 试 错 、 反 复 实验 一 样 ， 探 索性 数据 分 析 对 问题 的 解 
决 大 有 帮助 。 
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实话 实说 ， 除 非 你 做 过 很 多 次 ， 否 则 这 一 过 程 在 你 眼 里 依然 是 那么 神秘 。 最 好 是 从 易 到 
难 ， 先 做 看 起 来 最 俊 的 事 ， 事 后 看 ， 或 许 没有 你 想象 得 那么 公 。 


举例 来 说 ， 你 可 以 (或 者 说 是 应 该 ) 先 绘制 直方 图 或 散 点 图 以 对 数据 产生 一 个 直观 的 感 
受 ， 然 后 试 着 写 点 什么 ， 哪 怕 一 开始 是 错误 的 (很 可 能 一 开始 的 结论 是 错误 的 ， 没 关系 )。 

















比如 写 出 来 的 是 一 个 线性 方程 ( 详 见 下 一 章 )， 当 你 把 它 写 下 来 ， 就 会 强迫 自己 去 思考 : 
这 个 方程 有 意义 吗 ? 如果 没有 ， 为 什么 没有 ? 那 怎 样 的 方程 对 这 个 数据 集 是 有 意义 的 ?你 
从 最 简单 的 方式 开始 ， 逐 渐 增加 复杂 度 ， 做 出 假设 并 把 你 的 假设 写 下 来 。 如 果 你 觉得 完整 
的 陈述 有 帮助 ， 就 把 句子 写 完整 ， 比 如 :“ 我 假设 将 用 户 自然 分 成 五 组 ， 因 为 销售 代表 谈 
起 用 户 的 时 候 ， 她 把 用 户 分 成 了 五 类 。” 然 后 试 着 用 方程 式 和 代码 来 表达 这 一 陈述 。 


记 着 ， 从 简单 处 着 手 永远 是 个 好 办 法 ， 建 模 时 在 简单 和 准确 之 间 有 一 个 权衡 。 简 单 的 模型 
易于 理解 ， 很 多 时 候 ， 原 始 简单 的 模型 帮 你 完成 了 90% 的 任务 ， 而 且 构建 该 模 型 只 需要 几 
个 小 时 ， 采 用 复杂 的 模型 或 许 会 花 上 几 个 月 ， 而 且 只 将 这 个 数值 提 到 了 92%。 


在 本 书 中 ， 你 将 从 构建 模型 开始 ， 它 们 将 组 成 你 的 “兵工厂 。 在 构建 模型 时 会 用 到 很 多 
模块 ， 甚 中 一 种 就 是 概率 分 布 。 


概率 分 布 

概率 分 布 是 统计 模型 的 基础 。 在 讲述 线性 回归 和 朴素 贝 叶 斯 时 ， 你 就 会 知道 我 们 这 人 么 说 的 
原因 。 概 率 论 是 一 门 需要 花费 几 学 期 去 教授 的 课程 ， 将 这 样 庞杂 的 内 容 压 缩 并 在 一 六 中 讲 
述 ， 对 我 们 来 说 实在 是 个 巨大 的 挑战 。 





























回 到 还 没有 发 明 计 算 机 的 年 代 ， 科 学 家 观察 到 了 现实 生活 中 的 一 些 现象 ， 经 过 测量 后 发 
现 ， 一 些 固定 的 数学 模式 在 重复 出 现 。 甚 中 的 经 典 案 例 莫 过 于 人 的 身高 服从 正 态 分 布 ， 正 
态 分 布 是 一 种 钟 形 曲线 ， 也 叫 高 斯 分 布 ， 以 数学 家 高 斯 的 名 字 命 名 。 


还 有 其 他 一 些 经 常 出 现 的 曲线 ， 也 分 别 以 各 自 的 发 现 者 的 名 字 命 名 (比如 泊 松 分 布 、 韦 伯 
分 布 等 )， 另 外 一 些 曲 线 ， 如 伽 玛 分 布 、 指 数 分 布 ， 则 是 以 描述 它们 的 数学 方程 式 命名 。 


自然 状态 下 产生 的 数据 ， 可 以 用 数学 函数 来 描述 。 通 过 设 定 函 数 中 的 参数 ， 可 使 函数 曲线 
接近 于 实际 数据 的 分 布 形态 。 而 这 些 参 数 可 在 对 数据 进行 估计 的 基础 上 得 出 。 


不 是 所 有 过 程 产生 的 数据 都 服从 某 种 已 知 的 分 布 ， 但 很 多 都 服从 。 我 们 可 以 应 用 这 些 分 布 
函数 作为 模块 ， 来 构建 最 终 的 模型 。 本 书 兵 不 打算 深入 探讨 每 种 分 布 的 细节 ， 但 我 们 提供 
了 图 2-1 用 来 展示 这 些 常 用 的 分 布 ， 事 实 上 有 无 穷 多 种 分 布 ， 列 在 这 里 的 这 些 只 是 因为 有 
人 观察 了 它们 很 入， 觉得 有 必要 给 予 命名 而 已 。 


概率 分 布 可 以 理解 为 对 于 可 能 结果 的 子 集 指定 一 个 概率 ， 概 率 分 布 用 与 其 对 应 的 函数 来 表 
示 。 比 如 正 态 分 布 的 函数 为 : 
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_ G0)? 


N(xl4,0) ~ 29? 





1 
o/a 
参数 4 是 平均 值 或 中 位 数 ， 决 定 了 该 分 布 的 位 置 〈 正 态 分 布 是 一 at 参数 o 


决定 了 分 布 的 幅度 。 这 是 一 般 意 义 上 的 方程 式 ， 在 真实 世界 的 各 种 特定 现象 中 ， 参数 
的 值 是 固定 的 ， 我 们 可 以 通过 对 数据 的 估计 得 到 这 些 参 数 。 


AB 


- 


























正 态 分 布 均匀 分 布 柯 西 分 布 

分 布 卡 方 分 布 E n 韦伯 分 布 

WII iw LN. 
疲劳 寿命 ) 分 布 
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Power Normal Power Lognormal Tukey-Lambda 


极 值 分 布 贝塔 分 布 











图 2-1: 一 组 连续 的 密度 函数 (也 叫 概率 分 布 ) 


假设 随机 变量 x 的 概率 分 布 为 p0)， 该 函数 将 x 映射 为 一 个 实数 ， 要 使 其 成 为 概率 密度 卫 
数 ， 需 要 对 其 做 以 下 限定 :使 用 积分 求 曲线 覆盖 下 的 面积 ， 则 其 值 必须 为 1， 这 样 才能 称 
其 为 概率 。 






































比如 ， 设 x 为 距离 下 趟 公交 车 到 站 的 时 间 (以 秒 为 单位 )， 则 x 是 一 个 随机 变量 ， 因 为 下 趟 
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公交 车 的 到 站 时 间 是 不 定 的 。 


假设 我 们 已 知 (为 了 便于 讨论 ) 这 个 等 待 时 间 的 概率 密度 函数 为 p(x) = 2e 一， 如 果 我 们 
想 知 道 下 一 趟 车 在 等 候 12~13 分 钟 后 来 的 可 能 性 ， 则 只 需要 对 于 12 至 13 之 间 该 概率 分 布 


曲线 下 的 区 域 使 用 积分 人 “26-* 求 面积 即 可 。 
12 





怎么 知道 该 使 用 哪 种 概率 分 布 ” 有 两 种 方法 : 首先 ， 可 以 做 实验 。 我 们 可 以 随机 到 达 公 交 
车 站 ， 测 量 等 使 下 一 趟 公交 车 需要 的 时 间 ， 重 复 该 实验 多 次 。 然 后 将 测量 得 到 的 数据 绘制 
成 散 点 图 ， 看 看 与 哪 种 概率 分 布 曲线 吻合 。 或 者 基于 我 们 对 “等 待 时 间 ” 是 一 种 普遍 的 自 
然 现象 这 一 事实 的 了 解 ， 马 上 会 想到 采用 指数 分 布 p(x) = he “去 描述 ， 指 数 分 布 就 是 专 
门 发 明 用 来 描述 自然 界 这 种 普遍 现象 的 。 

使 用 单 变量 函数 可 以 描述 一 个 随机 变量 的 分 布 ， 描 述 多 个 随机 变量 则 需要 使 用 多 变量 函 
数 ， 这 称 作 联 合 分 布 。 以 两 个 随机 变量 为 例 ， 使 用 函数 p(x, y) 表示 概率 分 布 ， 输 入 为 平面 
上 的 点 ， 输 出 为 一 个 非 负 数 。 为 了 确保 其 是 一 个 概率 分 布 国 数 ， 在 整个 平面 求 二 重 积分 ， 
其 值 为 1。 


还 有 一 种 分 布 叫 条 件 分 布 p(xly)， 基 含义 是 当 y 给 定时 x 的 概率 密度 函数 。 





















































处 理 数 据 时 ， 条 件 意 味 着 一 个 子 集 。 比 如 ， 假 设 我 们 有 Amazon.com 的 一 组 用 户 数据 ， 该 
数据 列 出 了 每 个 用 户 上 月 在 该 网 站 的 消费 金额 ， 不 论 性 别 ， 也 不 管 在 将 第 一 件 商品 加 入 购 
物 车 前 浏览 过 多 少 商品 。 


设 随 机 变量 站 表示 消费 金额 ， 则 可 以 用 p(X) 表示 用 户 的 消费 金额 分 布 。 














从 所 有 用 户 中 选取 一 个 子 集 ， 该 子 集 的 用 户 在 购买 任何 商品 前 至 少 浏 览 过 5 件 商品 ， 让 我 
们 看 看 这 些 用 户 上 月 消费 金额 的 概率 分 布 。 设 随机 变量 了 表示 在 购买 第 一 件 商 品 前 浏览 也 
商品 数量 ， 则 p(X | Y » 5) 表示 条 件 分 布 。 条 件 分 布 和 一 般 的 分 布 拥有 一 样 的 性 质 : RER 
的 结果 为 1， 而 且 永远 不 会 为 负数 。 


当 我 们 观察 这 些 数据 点 时 ， 如 Go, yi) ,Co Yo ns Co 2)， 我 们 是 在 观察 随机 变量 的 实例 。 
当 我 们 有 一 个 行列 的 数据 时 ， 我 们 是 在 观察 个 随机 变量 组 成 的 联合 分 布 的 个 实例 。 
































如 果 读 者 还 想 了 解 更 多 关于 概率 分 布 的 知识 ， 请 参考 Sheldon Ross 所 著 的 A First Course in 
Probability 一 书 (Pearson), 


拟 合 模型 

拟 合 模型 是 指 用 观察 数据 估计 模型 参数 的 过 程 。 以 数据 为 依据 ， 近 似 模 拟 现实 中 产生 数据 
的 数学 过 程 。 拟 合 模型 经 常 要 引入 各 种 优化 方法 和 算法 ， 例 如 最 大 似 然 估 计 等 ， 来 确定 
参数 。 
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事实 上 ， 当 你 估计 参数 时 ， 参 数 就 成 了 佑 计量 ， 他 们 本 身 就 是 数据 的 函数 。 当 模型 拟 合成 
功 ， 就 能 以 数学 函数 的 形式 表达 ， 比 如 y = 7.2 + 4.5x， 其 含义 是 ， 基 于 你 对 数据 间 存 在 线 
性 关系 的 假设 ,该 函数 准确 表达 了 两 个 变量 之 间 的 这 种 关系 。 

拟 合 模型 的 过 程 就 是 开始 编写 代码 的 过 程 : 代码 将 会 读 入 数据 ， 将 写 在 纸 上 的 公式 翻译 成 
代码 ， 然 后 使 用 R 或 者 Python 中 内 建 的 优化 方法 ， 根 据 数据 ， 求 出 尽 可 能 精确 的 参数 值 。 
等 你 变 得 越 来 越 老练 ， 或 者 这 本 身 就 是 你 的 强项 时 ， 你 可 能 会 去 研究 这 些 优 化 方法 。 首 先 
得 知道 这 些 优化 方法 的 存在 ， 然 后 和 弄 明 白 它 们 是 怎么 工作 的 ， 但 是 你 不 必 亲 自 去 编写 代码 
实现 这 些 方法 ，R 和 Python 已 经 帮 你 实现 好 了 ， 直 接 调 用 就 行 。 

过 拟 合 

在 本 书 中 ， 不 时 会 提醒 你 小 心 过 拟 合 ， 项 至 这 会 成 为 你 的 梦 寿 。 过 拟 合 是 指使 用 数据 去 佑 
计 模 型 的 参数 时 ， 得 到 的 模型 并 不 能 模拟 现实 情况 ， 在 样本 以 外 的 数据 上 效果 不 好 。 

在 试图 用 该 模型 去 预测 另 一 组 数据 (该 组 数据 未 用 来 拟 合 模型 ) 的 标签 时 ， 你 可 能 会 发 现 
结果 不 尽 如 人 意 ， 以 准确 度 去 衡量 ， 这 并 不 是 一 个 很 好 的 模型 。 


2.2 ”探索 性 数据 分 析 


“ 面 对 那 些 我 们 坚信 和 存在 或 不 存在 的 事物 时 , “探索 性 数据 分 析 ” 代 表 了 一 种 态 
度 ， 一 种 方法 手段 的 灵活 性 ， 更 代表 了 人 们 寻求 真相 的 强烈 愿望 。 























John Tukey 











R 
教材 的 第 1 章 (第 1 章 的 意思 是 ， 这 是 最 简单 、 最 初级 的 内 容 )， 然 后 全 书 就 再 也 不 会 提 
及 它 ， 它 被 遗忘 

探索 性 数据 分 析 经 常 表现 为 画 一 些 直方 图 或 者 荃 叶 图 ， 小 学 五 年 级 都 开始 教 这 些 知识 了 ， 
因此 探索 性 数据 分 析 看 起 来 只 是 小 菜 一 碟 ， 不 是 吗 ? 这 也 就 难怪 没 人 把 它 当 回 事 了 。 
然而 探索 性 数据 分 析 是 数据 科学 中 的 重要 一 环 ， 同 时 代表 了 来 自 贝尔 实验 室 的 一 批 统计 学 
家 在 从 事 数 据 科 学 工作 时 所 采用 的 方法 和 观点 。 

John Tukey 是 贝尔 实验 室 的 数学 家 ， 他 开发 出 有 别 于 验证 性 数据 分 析 的 探索 性 数据 分 析 ， 
如 上 节 所 述 ， 验 证 性 数据 分 析 偏重 于 模型 和 假设 。 在 探索 性 数据 分 析 中 ， 设 有 假设 ， 也 没 
有 模型 。 这 里 的 “探索 性 ”是 指 你 对 待 解 问题 的 理解 会 随 着 研究 的 深入 不 断 变化 的 。 


c 





前 面 我 们 提 到 过 探索 性 数据 分 析 是 建 模 的 第 一 步 。 探 索性 数据 分 析 经 常 是 标准 统计 学 入 门 




















回顾 贝尔 实验 室 的 历史 


贝尔 实验 室 始 于 20 世纪 20 年代， 在 物理 学 、 计 算 机 科学 、 统 计 学 和 数学 上 做 出 了 
很 多 重大 发 明和 创新 ， 程 序 设计 语言 CH+ 也 诞生 于 贝尔 实验 室 ， 该 实验 室 还 培养 出 
很 多 诺 贝 尔 奖 获得 者 。 这 里 有 一 支 高 产 且 成 功 的 统计 学 小 组 ， 其 中 数学 家 John Tukey 
尤其 著名 ， 他 解决 了 很 多 统计 学 问题 。 他 被 誉 为 探索 性 数据 分 析 和 及 语言 之 父 〈(R 
的 前 身 是 贝尔 实验 室 的 S 语言 ，R 是 S 语言 的 一 个 开源 版 本 ) ， 他 同时 对 高 维 数据 的 
可 视 化 也 很 感 兴趣 。 

我 们 认为 贝尔 实验 室 是 数据 科学 的 诞生 之 地 ， 因 为 那里 有 海量 的 复杂 数据 ， 还 有 各 
学 科 之 间 的 相互 合作 。 和 现在 的 谷歌 一 样 ， 那 里 过 去 是 计算 机 科学 家 和 统计 学 家 的 
虚拟 游乐 场 。 

早 在 2001 年 ，Bill Cleveland 在 其 文章 “Data Science: An Action Plan for expanding the 
technical areas of the field of statistics” 中 就 描述 了 多 学 科研 究 、 模 型 、 处 理 数 据 的 方 
法 (也 就 是 传统 的 应 用 统计 学 )、 和 数据 相关 的 计算 (硬件 、 软 件 、 算 法 、 编 码 )、 教 
学 法 、 工 具 评 价 (现在 依然 是 前 沿 科 技 ) 以 及 理论 (数据 背后 的 数学 )。 

读者 可 以 阅读 Jon Gertner 所 著 的 The Idea Factory (Penguin Books) 一 书 了 解 更 多 关 
于 贝尔 实验 室 的 故事 。 











探索 性 数据 分 析 的 基本 工具 是 图 、 表 和 汇总 统计 量 。 一 般 来 说 ， 探 索性 数据 分 析 是 一 种 系 
统 性 分 析 数 据 的 方法 ， 它 展示 了 所 有 变量 的 分 布 情况 (利用 盒 形 图 )、 时 间 序 列 数据 和 变 
换 变 量 ， 利 用 散 点 矩阵 图 展示 了 变量 两 两 之 间 的 关系 ， 并 且 得 到 了 所 有 的 汇总 统计 量 。 换 
名 话说 ， 就 是 要 计算 均值 、 最 小 值 、 最 大 值 、 上 下 四 分 位 数 和 确定 异常 值 。 


探索 性 数据 分 析 不 仅 是 一 组 工具 ， 更 是 一 种 思维 方式 : 要 怎么 看 待 和 数据 之 间 的 关系 。 你 
想 理解 数据 ， 了 解数 据 的 形状 ， 获 得 对 数据 的 直观 感受 ， 想 将 数据 和 你 对 产生 数据 的 过 程 
的 理解 关联 起 来 。 探 索性 数据 分 析 是 你 和 数据 之 间 的 桥梁 ， 它 不 向 任何 人 证 明 什 么 。 


2.2.41. 探索 性 数据 分 析 的 哲学 


“与 其 担心 如 何 说 服 别人 ， 不 如 先 了 解 到 底 发 生 了 什么 。” 















































Andrew Gelman 


在 谷歌 期 间 ，Rachel 有 幸 与 前 贝尔 实验 室 的 两 位 统计 学 家 ，Daryl Pregibon 和 Diane 
Lambert 共事 ， 他 们 都 是 应 用 统计 学 领域 的 专家 。 正 是 从 他 们 身上 ，Rachel 学 会 了 将 探索 
性 数据 分 析 作 为 她 的 最 佳 实践 之 一 。 


是 的 ， 即 使 面 对 谷 歌 级 别 的 大 体 量 的 数据 ， 他 们 依然 进行 探索 性 数据 分 析 。 在 互联 网 企业 
中 ， 基 于 和 处 理 小 数据 同样 的 原因 ， 探 索性 数据 分 析 经 常 被 用 到 ， 在 处 理 日 志 数 据 时 ， 有 
更 多 的 理由 使 用 探索 性 数据 分 析 。 
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使 用 探索 性 数据 分 析 有 很 多 重要 的 原因 。 包 括 获 取 对 数据 的 直觉 、 比 较 变 量 的 分 布 、 对 数 
据 进 行 检查 【确保 数据 的 规模 在 你 预期 范围 内 ， 数 据 的 格式 是 你 想 要 的 等 )、 发 现 数据 中 
的 缺失 值 和 异常 值 、 对 数据 进行 总 结 。 


对 于 在 日 志 中 生成 的 数据 ， 探 索性 数据 分 析 可 以 用 于 调试 记录 日 志 的 流程 。 比 如 ， 你 通过 
统计 日 志 数 据 发 现 的 一 些 “ 模 式 *"， 很 可 能 其 实 是 由 于 日 志 记 录 流 程 中 出 错 造 成 的 ， 因 此 
这 些 错 误 咪 等 修复。 如 果 你 怕 肥 烦 从 不 去 调试 ， 你 可 能 会 一 直 认 为 这 些 模式 是 真实 存在 
的 。 和 我 们 工作 过 的 工程 师 总 是 非常 感谢 我 们 在 这 方面 提供 的 帮助 。 


最 后 ， 探 索性 数据 分 析 确 保 了 产品 的 性 能 符合 预期 。 


在 探索 性 数据 分 析 中 会 引入 许多 图 形 ， 但 是 我 们 有 必要 在 这 里 对 探索 性 分 析 和 数据 可 视 化 
加 以 区 分 。 探 索性 数据 分 析 是 数据 分 析 的 开端 ， 而 数据 可 视 化 (将 会 在 第 9 章 介绍 ) 是 在 
数据 分 析 的 最 后 一 个 环节 ， 用 于 呈现 数据 分 析 的 结论 。 在 探索 性 数据 分 析 中 ， 图 形 只 是 帮 
助 你 理解 数据 。 


在 探索 性 数据 分 析 中 ， 可 以 根据 对 数据 的 理解 优化 算法 。 比 如 ， 你 正在 开发 一 种 排名 算 
法 ， 该 算法 对 你 推荐 给 用 户 的 内 容 进 行 排名 。 为 此 ， 你 可 能 需要 定义 什么 是 “流行 度 ”。 


在 决定 以 何 种 方式 量化 “流行 度 ” 之 前 (可行 的 量化 方式 有 最 高 的 点 击 率 、 最 多 的 回复 
率 、 大 于 某 一 国 值 的 回复 量 或 者 众多 指标 的 加 权 平 均值 ) ， 你 需要 先 了 解数 据 的 运作 表现 ， 
而 做 这 件 事 最 好 方式 就 是 观察 你 的 数据 ， 亲 自 去 实践 。 


根据 数据 绘图 ， 并 进行 比较 ， 这 些 将 会 收 到 意 想 不 到 的 效果 。 相 比 于 拿 到 数据 集 后 、 不 管 
三 七 二 十 一 就 运行 一 个 回归 模型 ， 这 种 方法 效果 要 好 得 多 。 你 之 所 以 选择 回归 模型 ， 只 是 
因为 你 知道 它 怎 么 用 。 对 分 析 师 和 数据 科学 家 来 说 ， 在 处 理 数据 时 ， 若 没有 将 探索 性 数据 
分 析 视 为 重要 一 环 纳入 到 整个 研究 过 程 中 ， 这 对 研究 结果 极为 不 利 。 给 自己 个 机 会 ， 把 探 
索性 数据 分 析 作 为 你 的 数据 分 析 工 作 流 程 中 的 一 部 分 吧 ! 


这 里 有 一 些 引用 文献 ， 帮 助 你 了 解 探 索性 数据 分 析 这 一 最 佳 实 践 和 其 历史 背景 : 
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(1) Exploratory Data Analysis, John Tukey 3 (Pearson) 

(2) The Visual Display of Quantitative Information, Edward Tufte 著 (Graphics Press) 

(3) The Elements of Graphing Data, William S. Cleveland 车 (Hobart Press) 

(4) Statistical Graphics for Visualizing Multivariate Data, William G. Jacoby 著 (Sage) 

(5) “Exploratory Data Analysis for Complex Models", Andrew Gelman (American Statistical 
Association ) 

(6) John, T. (1962). The Future of Data Analysis. Annals of Mathematical Statistics, 33(1), 1-67 

(7) *Data Analysis, Exploratory”， 作 者 为 David Brillinger, International Encyclopedia of Political 
Science (Sage) (8 页 摘录 ) 
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2.2.2 练习: 探索 性 数据 分 析 

有 如 下 31 个 数据 文件 : nytlcsv、nyt2.csv…nyt31.csv， 可 以 从 https://github.com/ 
oreillymedia/doing data science 下 载 。 每 一 个 数据 文件 记录 了 《纽约 时 报 》5 月 份 每 天 出 
现在 主页 上 的 广告 和 广告 的 点 击 次 数 ， 当 然 ， 这 组 数据 是 我 们 伪造 的 。 数 据 的 每 一 行 代表 
了 一 个 用 户 ， 数 据 共有 5 列 ， 分 别 为 : 年 龄 、 性 别 (0 = 女性 ，1 = 男性 )、 广 告 显示 次 数 、 
点 击 次 数 、 是 否 登 录 。 




















你 将 使 用 R 处 理 这 些 数据 ，R 是 一 种 编程 语言 ， 设 计 用 来 专门 做 数据 分 析 ， 使 用 起 来 很 
直观 。 如 果 你 还 没 安装 过 RR， 请 致 其 官方 网 站 http:/www.r-project.org/ 下 载 。 安 装 完成 后 ， 
使 用 下 述 命令 加 载 一 个 文件 : 














data1 <- read.csv(url("http://stat.columbia.edu/-rachel/datasets/nyti.csv")) 


数据 加 载 成 功 后 ， 就 可 以 开始 进行 探索 性 数据 分 析 了 。 





(1) 创建 一 个 新 变量 age group ， 按 年 龄 将 用 户 离散 化 ， 分 为 "<18"、"18-24"、"25-34"、 
"35-44"、"45-54"、"55-64"、"65+" 总 共 7 组 。 
Q) 对 于 每 天 的 记录 有 以 上 操作 。 
。 对 这 7 组 用 户 ， 分 别 绘 出 点 击 率 分 布 图 ( 点 击 率 = 点 击 次 数 / 广告 显示 次 数 )。 
。 定义 一 个 新 变量 ， 基 于 用 户 的 点 击 行为 将 用 户 分 类 。 
。 探索 性 地 分 析 这 些 数据 ， 从 图 形 和 数量 两 方面 比较 各 用 户 组 之 间 的 差异 〈 比 如 小 于 
18 岁 的 男性 和 小 于 18 岁 的 女性 ,或 者 已 登录 用 户 和 未 登录 用 户 等 )。 
。 创建 用 于 描述 数据 的 各 种 统计 量 、 算 了 泗 。 可 能 的 度量 项 目 有 点 击 率 、 分 位 数 、 平 均值 、 
中 位 数 、 方 差 、 最 大 值 等 ， 可 以 在 每 个 用 户 组 中 单独 计算 这 些 统计 量 。 要 有 所 取 爹 ， 
想 一 想 随 着 时 间 的 推移 ， 哪 些 才 是 重要 的 、 值 得 去 记录 的 ， 这 样 可 以 压缩 数据 ， 同 
时 不 失 准 确 地 记录 用 户 行为 。 


(3) 现在 延长 你 所 分 析 的 时 间 ， 将 数 日 内 的 矩阵 和 分 布 情况 用 图 形 表示 出 来 。 
(4) 描述 并 解释 你 发 现 的 模式 。 


示例 代码 

这 里 我 们 给 出 本 练习 的 一 个 解决 方案 的 前 半 部 分 代码 。 我 们 不 可 能 在 这 一 本 书 中 同时 教授 
数据 科学 和 如 何 编写 程序 ， 学 习 使 用 一 种 新 语言 去 写 程序 需要 不 断 去 尝试 ， 你 可 能 会 遇 到 
错误 ， 这 时 去 谷歌 或 stackoverflow 网 站 上 搜索 是 个 不 错 的 主意 。 


















































当 你 试图 在 R 中 绘图 或 者 建 模 是 ， 或 许 其 他 人 已 经 试 过 了 ， 与 其 一 个 人 在 那 苦 思 竖 想 ， 不 
如 上 网 看 看 。 但 是 在 你 努力 凭 自己 的 能 力 解决 这 个 问题 之 前 , 我 们 不 建议 马上 看 我 们 提供 
的 答案 : 





























注 1: O’Reilly 网 站 上 也 有 很 多 参考 书 可 供 阅 读 。 
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# Author: Maura Fitzgerald 


data1 <- read.csv(url("http://stat.columbia.edu/-rachel/datasets/nyti.csv")) 


# 分 类 
head(data1) 
dataiS$agecat «-cut(datai$Age,c(-Inf,0,18,24,34,44,54,64,Inf)) 


# 预览 
summary(data1) 


# 分 组 

install.packages("doBy") 

library("doBy") 

siterange <- function(x)([c(length(x), min(x), mean(x), max(x))] 
summaryBy(Age-agecat, data -data1, FUN-siterange) 


# 登录 的 用 户 才 有 性 别 和 年 龄 
summaryBy(Gender+Signed_In+Impressions+Clicks~agecat, 
data =data1) 








# 绘图 
install.packages("ggplot2") 
library(ggplot2) 
ggplot(datai, aes(x-Impressions, fill-agecat)) 
*geom histogram(binwidth-1) 
ggplot(datai, aes(x-agecat, y-Impressions, fill-agecat)) 
*geom boxplot() 








# 根据 转化 率 创建 点 击 ， 如 果 没 有 印象 ， 

# 不 必 在 平 其 是 否 点 击 ， 如 果 没 有 印象 的 点 击 出 现 ， 

# 证 明 我 对 数据 的 假设 是 错误 的 

datai$hasimps «-cut(dataiSImpressions,c(-Inf,0,Inf)) 

summaryBy(Clicks-hasimps, data -datai, FUN-siterange) 

ggplot(subset(datai1, Impressions»0), aes(x-Clicks/Impressions, 
colour-agecat)) * geom density() 

ggplot(subset(datai1, Clicks>0), aes(x-Clicks/Impressions, 
colour-agecat)) + geom density() 

ggplot(subset(datai1, Clicks>0), aes(x-agecat, y-Clicks, 
fill=agecat)) + geom boxplot() 

ggplot(subset(datai, Clicks»0), aes(x-Clicks, colour-zagecat)) 
* geom density() 























# 分 组 

datai$scode[dataiSImpressions--0] <- "NoImps" 
datai$scode[dataiSImpressions >0] <- "Imps" 
datai$scode[dataiSClicks 20] <- "Clicks" 


# 将 列 转 换 成 一 个 因素 
datai$scode <- factor(datai$scode) 
head(data1) 


# 查看 水 平 

clen <- function(x){c(length(x))} 

etable<-summaryBy(Impressions~scode+Gender+agecat, 
data = data1, FUN=clen) 








以 下 为 做 该 练习 其 他 部 分 时 的 提示 : 


不 要 将 所 有 数据 一 次 性 读 入 内 存 。 当 你 某 天 终于 将 代码 写 好 时 ， 一 次 只 加 载 一 个 
数据 文件 ， 处 理 它 ， 输 出 相关 的 矩阵 和 变量 ， 将 结果 存 入 一 个 数据 框 。 在 加 载 下 
一 个 文件 时 ， 记 得 移 除 上 一 个 文件 。 之 所 以 这 样 做 ， 是 为 了 让 你 思考 在 多 个 机 器 
之 间 共 享 数 据 时 该 如 何 处 理 。 





关于 编写 代码 的 建议 


在 2013 年 5 月 发 表 的 一 篇 文章 “How to be a Woman Programmer” 中 ，Ellen Ullman 
相当 好 地 描述 了 成 为 一 个 程序 员 需 要 的 素质 (让 我 们 暂且 不 去 关注 和 女性 特别 相关 
的 部 分 ) : 

学 习 编 程 的 首要 条 件 是 对 编程 本 身 的 热爱 ， 对 于 探索 横 豆 于 人 脑 和 机 器 之 间 的 神秘 
空间 、 如 何 使 机 器 满足 人 类 的 需求 抱 有 强烈 的 探索 需求 。 


第 二 个 条 件 是 允许 失败 。 编 程 是 一 门 设计 算法 的 艺术 ,同时 是 一 门 调试 错误 程序 的 
手艺 。 用 Fortran 语言 的 发 明 者 、 著 名 的 计算 机 科学 家 约翰 .巴克 斯 的 话 来 说 :“ 你 要 
随时 准备 着 出 错 ， 你 要 有 很 多 方案 ， 努 力 工作 去 发 现 那 些 不 奏效 的 方案 ， 不 断 地 这 
样 做 ， 直 到 找到 正确 的 方案 。 











x jen 3 
2.3 ”数据 科学 的 工作 流程 
综 上 所 述 ， 让 我 们 来 看 看 如 何 定义 数据 科学 的 工作 流程 。 你 见 的 数据 科学 工作 者 越 多 ， 你 
就 越 会 发 现 他 们 的 工作 流程 符合 图 2-2 的 描述 。 贯 穿 全 书 ， 我 们 会 使 用 各 种 方法 介绍 该 过 
程 的 各 个 环节 和 案例 。 









做 决定 











图 2-2. 数据 科学 的 工作 流程 
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首先 ， 我 们 生活 在 这 个 世界 中 。 在 这 个 世界 上 ， 有 很 多 人 在 从 事 各 种 各 样 的 活动 。 有 些 人 
在 使 用 Googletr， 另 外 一 些 人 则 在 奥运 会 上 一 较 高 下 ; 有 些 人 在 制造 、 发 送 垃圾 邮件 ， 有 
些 人 则 在 医院 里 抽 血 。 假 设 我 们 拥有 其 中 某 项 活动 的 数据 。 

具体 来 说 ， 以 原始 数据 为 起 点 ， 诸 如 日 志 、 奥 运 会 纪录 、 安 然 公 司 员 工 的 电子 邮件 、 遗 传 
物质 记录 (需要 注意 的 是 ， 在 我 们 拿 到 这 些 原始 数据 时 ， 这 项 活动 中 某 些 方面 的 信息 已 经 
缺失 了 )。 我 们 需要 处 理 这 些 原始 数据 ， 使 得 其 便于 分 析 。 因 此 我 们 创建 出 管道 对 数据 进 
行 再 加 工 : 联合、 拼凑、 清理， 随便 你 叫 它们 什么 好 了 ， 就 是 要 对 数据 进行 再 加 工 。 我 们 
可 以 使 用 Python、shell 脚本 、R、SQL 完成 这 件 任务 。 


最 终 得 到 格式 化 好 的 数据 ， 像 下 面 这 种 由 列 构成 的 数据 : 
姓名 | 事件 | 年 份 | 性 别 | 时 间 
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v a. 
1 在 标准 的 统计 学 课程 中 ， 通 常 从 一 份 干净 有 序 的 数据 文件 开始 ， 但 在 现实 
Aa 
QN 
L] 


。 中 ， 你 通常 不 会 有 这 么 好 的 运气 。 
^ 











在 拿 到 这 份 干 净 的 数据 后 ， 我 们 应 该 先 做 一 些 探 索性 数据 分 析 。 在 这 个 过 程 中 ， 我 们 或 许 
会 发 现 数据 并 不 是 那么 干净 ， 数 据 可 能 含有 重复 值 、 缺 失 值 或 者 苑 座 的 异常 值 ， 有 些 数 据 
未 被 记录 或 被 错误 地 记录 。 在 发 现 上 述 现 象 时 ， 我 们 不 得 不 回 过 头 采集 更 多 的 数据 ， 或 者 
花 更 多 的 时 间 清 理 数据 。 


然后 ， 我 们 使 用 一 些 算 法 ， 比 如 大 近邻、 线性 回归 、 朴 素 贝 叶 斯 等 设计 模型 。 选 取 何 种 模 
型 取决 于 要 解决 的 问题 ,这 可 能 是 一 个 分 类 问题 、 一 个 预测 问题 ,或 者 只 是 一 个 基本 的 描 
述 问题 。 
这 时 就 可 以 解释 、 勾 勒 、 报 告 或 者 交流 得 到 的 结果 。 可 以 将 结果 报告 给 老板 或 同事 ， 或 者 
在 学 术 期 刊 上 发 表 文 草 ， 或 者 走出 去 参加 一 些 学 术 会 议 ， 曾 述 我 们 的 研究 成 果 。 

如 果 我 们 的 目标 是 开发 一 款 数据 产品 或 其 产品 原型 ， 例 如 垃圾 邮件 分 类 、 搜 索 排名 算法 、 
推荐 引擎 等 。 数 据 科 学 和 统计 学 的 不 同 之 处 就 体现 出 来 了 ， 数 据 产 品 最 终 会 融合 到 日 常生 
活 中 ， 用 户 会 和 产品 产生 交互 ， 交 互 会 产生 更 多 的 数据 ， 这 样 形成 一 个 反馈 的 循环 。 


















































这 和 天 气 预报 大 相 径 庭 ， 在 预测 天 气 时 ， 你 的 模型 对 于 结果 没有 任何 影响 。 比 如 ， 你 预测 
到 下 星期 会 下 雨 ， 除 非 你 拥有 某 种 超 能 力 ， 否 则 不 是 你 让 天 下 雨 的 。 但 是 假如 你 搭建 了 一 
个 推荐 系统 ， 证 明 “ 很 多 人 都 喜欢 这 本 书 ”， 那 就 不 一 样 了 ， 看 到 这 个 推荐 的 人 没准 觉得 
大 家 都 喜欢 的 东西 应 该 不 会 太 差 ， 也 喜欢 上 这 本 书 了 ， 这 就 形成 了 反馈 。 


在 做 任何 分 析 时 ， 都 要 将 这 种 反馈 考虑 在 内 ， 以 此 对 模型 产生 的 偏差 进行 调整 。 模 型 不 仅 
预测 未 来 ， 它 还 在 影响 未 来 。 
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一 个 可 供用 户 交 互 的 数据 产品 和 天 气 预报 分 别处 于 数据 分 析 的 两 个 极端 ， 无 论 你 面 对 何 种 
类 型 的 数据 和 基于 该 数据 的 数据 产品 ， 不 管 是 基于 统计 模型 的 公共 政策 、 医 疗 保险 还 是 被 
广泛 报道 的 大 选调 查 ， 报 道 本 身 或 许 会 左右 观众 的 选票 ， 你 都 要 将 模型 对 你 所 观察 和 试图 
理解 的 现象 的 影响 考虑 在 内 。 


数据 科学 家 在 数据 科学 工作 流程 中 的 角色 

到 目前 为 止 ， 所 有 这 一 切 仿佛 不 需要 人 工 干预 ， 奇 迹 般 地 发 生 了 。 这 里 说 的 “人 ”， 是 指 
那些 “数据 科学 家 "。 总 得 有 人 做 出 决定 : 该 收 集 哪 些 数据 ?为 什么 要 收集 这 些 数据 ?她 
还 要 提出 问题 ， 做 出 假设 ， 制 定 解决 问题 的 方案 。 她 就 是 数据 科学 家 ， 或 者 她 是 我 们 推崇 
的 数据 科学 团队 。 


让 我 们 重新 修订 以 前 的 流程 ， 至 少 增加 一 层 ， 来 表明 数据 科学 家 需要 全 程 参 与 到 这 一 流程 
中 来 ， 他 们 不 但 需要 在 流程 的 较 高 层次 上 工作 ， 还 需要 亲手 编写 程序 ， 如 图 2-3 所 示 。 


























为 什么 ? 我 要 解决 
什么 样 的 研究 课题 ? 


问 问题 m M 
该 记录 和 收集 成 假设 — A 
什么 样 的 数据 ? PHI Sida 
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图 2-3: 数据 科学 家 需要 参与 数据 科学 工作 流程 的 各 个 环节 





数据 科学 工作 流程 和 其 他 科学 方法 的 关系 
数据 科学 工作 流程 ， 可 以 看 作 是 其 他 科学 方法 的 鞍 伸 或 变 体 ， 它 的 一 般 步 骤 为 : 
。 提出 问题 ; 
。 做 一 些 背 景 研究 ; 


。 构想 假设 ; 
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。 做 实验 验证 构想 的 假设 ; 
。 分 析 数 据 并 得 出 结论 ; 
。 把 你 的 结果 分 享 给 其 他 人 。 


在 数据 科学 工作 流程 和 其 他 科学 方法 中 ， 不 是 每 个 研究 问题 都 需要 按部就班 地 解决 ， 
大 多 数 问 题 部 不 用 严格 走 完 每 一 步 ， 几 个 步 又 的 组 合 就 可 能 解决 问题 。 比 如 ， 如 果 
你 的 目标 是 对 数据 进行 可 视 化 (这 本 身 也 可 以 看 成 是 一 个 数据 产品 )， 很 可 能 你 不 会 
使 用 任何 机 器 学 习 或 统计 模型 ， 你 只 需要 想方设法 得 到 干净 的 数据 ， 做 一 些 探索 性 
数据 分 析 ， 将 结果 用 图 表 的 形式 展示 出 来 即 可 。 








2.4 思维 实验 : 如 何 模拟 混 ; 


大 多 数 问题 一 开始 都 面临 一 堆 脏 乱 无 序 的 数据 ， 或 者 问题 本 身 并 未 得 到 明确 定义 ， 或 者 问 
题 迫 切 待 解 。 作 为 数据 科学 家 的 我 们 ， 从 某 种 程度 上 说 ， 肩 负 着 从 混沌 中 恢复 秩序 的 责 
任 。 在 哥伦比亚 大 学 的 课堂 上 ， 我 们 利用 课 间 休息 时 间 讨 论 了 如 何 来 模拟 混沌 ， 下 面 是 讨 
论 中 出 现 的 一 些 有 意思 的 观点 。 

















冶 伦 兹 水 车 是 一 种 摩天 轮 式 的 精妙 装置 ， 它 由 等 间距 的 叶轮 组 成 ， 绕 轴 旋 转 。 每 个 叶轮 
下 方 都 有 一 个 小 孔 ， 设 想 一 下 水 流 从 水 车 的 正 上 方 倾注 而 下 ， 从 小 孔 中 漏出 的 水 会 打 到 
其 他 叶片 上 。 调 整 水 的 流速 ,会 发 现 叶 轮 一 会 儿 正 转 ,一 会 儿 反 转 , 呈现 一 种 混沌 的 状态 ， 
请 阅读 维基 百科 上 的 文章 了 解 更 多 关于 洛 仑 兹 水 车 的 内 容 : http://en.wikipedia.org/wiki/ 
User:Pankajgarg_india/The_lorenzian_waterwheel, 

很 多 系统 可 以 演示 固有 的 混沌 。Philippe M. Binder 和 Roderick V. Jensen 写 过 一 篇 关于 
利用 计算 机 模拟 混沌 现象 的 文章 ， 文 章 的 题目 是 “Simulating chaotic behavior with finite- 
state machines" , 

来 自 麻 省 理工 、 哈 佛 和 塔 夫 茨 大 学 的 研究 者 发 起 了 一 个 跨 学 科 的 项 目 ， 旨 在 教授 
“Simulating chaos to teach order” 这 项 技术 。 他 们 模拟 了 发 生 在 乍得 和 苏丹 边境 的 达尔 
语 尔 地 区 的 一 起 紧急 事件 ， 学 生 在 其 中 扮演 无 国界 医生 组 织 成 员 、 国 际 医疗 队 和 其 他 一 
些 人 道 主义 机 构 。 

Joel Gascoigne 也 写 了 一 篇 关于 混沌 的 文章 “Creating order from chaos in a startup" , 























讲师 笔记 


(1) 在 一 个 组 织 中 充当 数据 科学 家 经 常 要 面 对 各 种 混乱 ， 从 混乱 中 恢复 秩序 是 数据 科学 
家 的 职责 。 因 此 ， 在 课堂 上 我 会 不 断 地 给 我 的 学 生 模拟 各 种 混乱 的 场景 。 但 愿 学 生 
们 明白 这 只 是 出 于 教学 的 目的 ， 并 非 老师 无 能 。 








(2) 我 想 通过 对 “混沌 ”这 个 词 的 不 同 理解 ， 来 益 述 词汇 的 重要 性 和 与 人 沟通 时 的 困 
难 ， 人 们 经 常 并 不 知道 一 个 词 的 确切 含义 ， 或 者 他 理解 的 和 你 想 说 的 南 辕 北 辐 。 数 
据 科学 家 要 和 领域 专家 沟通 ， 他 们 很 可 能 不 知道 什么 是 “逻辑 回归 ”， 但 为 了 不 让 
自己 看 起 来 像 个 傻瓜 ， 或 者 觉得 这 是 他 们 “应 该 ”知道 的 ， 总 之 ， 他 们 装 作 了 然 于 
胸 ， 不 导向 你 提问 。 若 两 个 人 在 讨论 时 并 不 确 知 对 方 口中 的 术语 是 什么 意思 ， 这 样 
的 沟通 怎么 可 能 有 效 ? 同样 的 ， 数 据 科 学 家 也 应 该 多 问 领域 专家 问题 ， 确 保 自己 理 
解 领域 专家 用 到 的 术语 (不 管 他 是 一 位 天 体 物 理学 家 、 社 交 网 络 专家 还 是 气象 学 
家 ) 。 不 知道 某 些 术 语 并 不 丢人 ， 不 知道 还 不 去 问 才 丢人 。 你 很 可 能 会 发 现 ， 当 通 
过 提问 题 搞 清楚 一 些 术 语 的 含义 后 ， 你 会 对 问题 本 身 理解 得 更 透彻 。 


(3) 模拟 是 数据 科学 中 一 项 极为 有 用 的 技术 。 为 一 个 模型 模拟 一 些 假 数据 可 以 更 好 地 理 
解 产生 数据 的 过 程 ， 还 可 以 帮助 调试 程序 ， 这 是 一 项 很 好 的 实践 。 











2.5 ”案例 学 习 : RealDirect 


RealDirect 公司 的 CEO Doug Perlson 熟 习 房 地 产 法 ， 有 初创 公司 和 在 线 广告 领域 的 工作 背 
景 。 他 创立 RealDirect 公司 的 目标 是 利用 收集 到 的 房地产 数据 帮助 人 们 买卖 房子 。 


通常 人 们 每 七 年 就 会 卖 掉 自 己 的 房子 ， 这 经 常 要 借助 于 房产 经 纪 人 和 当前 的 市 场 数 据 。 但 


是 房产 经 纪 系 统 和 数据 质量 本 身 都 存在 不 少 问题 ，RealDirect 正 是 致力 于 解决 这 两 方面 的 
问题 。 














首先 说 房产 经 纪 人 ， 他 们 经 常 是 “自由 代理 人 ”， 他 们 给 自己 打工 ， 你 可 以 把 他 们 想象 成 房 
产销 售 顾问 。 这 就 意味 着 他 们 会 极力 保护 自己 手中 的 数据 ， 那 些 业绩 很 好 的 经 纪 人 通常 手 
中 握 有 大 量 的 数据 。 但 是 长 远 来 看 ， 这 只 不 过 意味 着 他 们 比 那些 菜鸟 多 掌握 一 些 数据 而 已 。 
为 了 解决 这 些 问题 ，RealDirect 雇用 了 一 些 持 有 执照 的 房产 经 纪 人 ， 他 们 一 起 工作 ， 共 享 


各 自 掌握 的 信息 。RealDirect 给 卖房 者 提供 了 接口 ， 给 他 们 一 些 基 于 统计 数据 的 卖房 建议 。 
RealDirect 还 利用 和 用 户 的 交互 数据 ， 实 时 地 指导 用 户 该 如 何 进 行 下 一 步 操作 。 














这 些 被 雇用 的 房产 经 纪 人 现在 成 了 数据 专家 ， 他 们 学 着 利用 一 些 数据 采集 工具 收集 有 用 的 
新 信息 ， 或 者 直接 访问 那些 公众 可 见 的 数据 。 比 如 ， 现 在 你 能 获取 合作 式 公寓 (纽约 的 一 
种 公寓 ) 的 销售 数据 ， 这 得 益 于 最 近 的 政策 变化 。 





公开 的 数据 有 一 个 缺点 : 时 效 性 不 强 。 一 笔 房 屋 交 易 完 成 后 ， 通 常 要 等 三 个 月 左右 才 会 被 
录入 公开 可 查询 的 数据 库 中 。 而 RealDirect 正 致力 于 向 用 户 提供 实时 反馈 ， 包 括 用 户 何 时 
开始 搜索 房屋 、 初 始 报 价 是 多 少 、 从 放 盘 到 成 交 需 要 多 长 时 间 、 用 户 是 如 何在 网 上 搜索 房 
屋 的 …… 这 一 系列 问题 ，RealDirect 都 能 为 用 户 提 供 有 效 信息 。 











最 终 ， 如 果 买 方 和 卖方 都 诚实 守信 ， 这 些 优质 的 信息 对 双方 都 有 帮助 。 
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2.5.1 RealDirect 是 如 何 赚钱 的 

首先 ， 它 向 卖方 提供 每 月 大 概要 花费 395 美元 的 订阅 服务 ， 用 以 访问 网 站 提供 的 销售 工 
上 有 具 。 其 次 ， 它 人 允许 卖方 以 较 低 的 价格 使 用 公司 的 房产 经 纪 人 ， 通 常 是 房屋 总 价 的 296, m 
市 面 上 的 价格 一 般 是 2.590 或 3%。 这 时 ， 共 享 信息 的 优势 就 体现 出 来 了 ， 这 种 更 优化 的 人 
力 资 源 组 织 方式 允许 RealDirect 采取 更 低 的 定价 策略 ， 从 而 带 来 更 多 的 生意 ， 利 润 自 然 增 
加 了 。 




















RealDirect 网 站 更 像 一 个 平台 ， 在 这 个 平台 上 ， 买 方 和 卖方 可 以 管理 他 们 的 买卖 流程 。 网 
站 实时 反映 了 用 户 的 当前 状态 : 活动 、 交 易 达 成 、 交 易 被 拒绝 、 看 房 中 、 正 在 签 合同 中 
等 。 软 件 会 根据 用 户 的 当前 状态 给 出 下 一 步行 动 的 建议 。 


当然 ，RealDirect 也 面临 一 些 挑战 。 首 先 ， 根 据 纽约 的 法 律 ， 只 有 登记 造 册 的 房屋 才能 

现在 出 售 目录 上 ， 因 此 RealDirect 网 站 需要 用 户 注册 。 对 于 买 家 来 说 ， 这 无 疑 是 人 为 地 被 
设置 了 一 道 障碍 ， 但 是 那些 真正 想 买 房子 的 人 ， 是 不 会 因为 这 点 小 麻烦 而 放弃 注册 的 。 此 
外 ， 那 些 不 需要 注册 的 网 站 ， 比 如 Zillow， 并 不 是 RealDirect 的 竞争 对 手 ， 因 为 它们 只 提 
供出 售 的 房屋 目录 ， 并 不 提供 其 他 附加 服务 。Doug 指出 ， 使 用 Pinterest 同样 需要 注册 ， 
但 依然 有 无 数 用 户 去 注册 ， 因 此 ， 需 要 用 户 注 册 对 RealDirect 来 说 并 不 是 什么 问题 。 




















RealDirect 的 房产 经 纪 人 来 自 各 个 房产 经 纪 机 构 ， 即 使 这 样 ，RealDirect 仍然 收 到 一 些 来 自 
房产 经 纪 人 的 来 售 ， 他 们 谴责 RealDirect 单方 面 降低 价格 的 行为 损害 了 整个 行业 的 利益 。 
但 同时 ， 如 果 一 个 房产 经 纪 人 因为 革 房 产 在 RealDirect 网 站 上 售卖 ， 而 拒绝 带领 买主 去 看 
房 的 话 ， 这 些 潜在 的 买 家 就 会 抱怨 ， 他 们 也 在 其 他 地 方 看 见 了 该 房产 ， 任 什么 不 让 看 房 。 
因此 ， 传 统 的 房产 经 纪 人 别 无 选择 ， 即 使 他 们 不 喜欢 RealDirect， 也 不 得 不 和 它 做 生意 。 
换 句 话 说， 这 些 房屋 销售 的 目录 是 透明 的 ， 传 统 的 房产 经 纪 人 设 有 办 法 不 让 他 们 的 买 家 看 
见 这 些 房子 。 























Doug 谈 到 了 买 家 购房 时 考虑 的 一 些 关 键 因 素 : 附近 有 设 有 公园 、 地 铁 、 学 校 ， 同 片区 或 
同 建筑 内 相似 公寓 每 平米 价格 的 差异 。 他 们 想 收集 这 些 数 据 用 到 RealDirect 的 服务 中 。 





2.5.2” 练 一 练 : RealDirect 公 司 的 数据 策略 
你 被 任命 为 RealDirect 公司 的 首席 数据 科学 家 ， 直 接 汇报 给 CEO。 公 司 (当然 是 假想 的 
司 ) 现在 还 没有 关于 如 何 利用 数据 的 计划 ， 全 指望 你 提出 一 套数 据 策略 。 下 面 是 一 些 能 
助 你 开始 指定 策略 的 一 些 方法 。 


公 
帮 


mmi 




















(1) 浏览 RealDirect 网 站 ， 站 在 用 户 的 角度 ， 想 一 想 买方 和 卖方 分 别 会 如 何 浏览 在 各 页 面 、 
网 站 的 各 个 页 面 之 间 是 如 何 组 织 的 。 试 着 去 理解 现 有 的 业务 模型 ， 想 一 想 如 何 通过 分 
析 RealDirect 网 站 用 户 行为 ， 帮 助 企 业 做 出 决策 、 改 善 产品 。 提 出 一 些 你 认为 可 以 用 数 
据 回 答 的 问题 。 
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。 你 会 建议 工程 师 为 哪些 数据 记录 日 志 ? 你 期 望 的 数据 文件 应 该 拥有 何 种 格式 ? 
。 如 何 使 用 数据 汇报 和 管理 产品 的 使 用 ? 
。 从 数据 中 得 到 的 信息 又 如 何 反馈 给 产品 和 网 站 ? 


(2) 因为 现在 
时 ， 你 应 








还 没有 数据 供 你 分 析 (通常 在 初创 型 公司 中 ， 产 品 这 时 还 处 于 开发 阶段 )， 此 
该 借助 于 一 些 辅 助 数据 来 获取 对 市 场 的 认识 。 比 如 ， 可 以 去 如 下 网 站 下 载 一 


些 数据 文件 : https://github.com/oreillymedia/doing_data_science。 
你 可 以 使 用 部 分 或 全 部 的 数据 文件 。 


。 第 一 个 挑战 ， 加 载 和 清理 数据 。 然 后 进行 探索 性 数据 分 析 ， 找 出 哪些 数据 中 有 异常 
值 和 缺失 值 ， 你 会 采取 何 种 方式 处 理 它们 ? 最 后 ， 确 保 将 数据 格式 转换 为 你 想 要 的 


格式 ， 


。 当 数 据 整理 干净 后 ， 继 续 探索 性 分 析 ， 将 数据 间 的 关系 用 图 形 展示 出 来 ， 将 数据 在 




















诸如 你 认为 整数 类 型 的 值 应 该 确保 其 类 是 整 型 等 。 


























O 空间 和 (时 间 两 个 维度 上 进行 对 比 。 如 果 你 时 间 充 裕 ， 可 以 试 着 找 找 这 些 数据 
里 面 是 否 缠 含 着 什么 有 意思 的 模式 。 





O) 将 你 的 发 现 总 结 成 一 份 简报 汇报 给 CEO。 


(4) 作为 数据 
理想 情况 


科学 家 工作 的 一 部 分 ， 经 常 需要 向 那些 不 是 数据 科学 家 的 人 发 表 讲 演 ， 因 此 
下 ， 你 需要 掌握 一 些 沟通 的 技巧 ， 可 以 将 你 要 表达 的 信息 准确 传达 给 对 方 。 





尔 能 想到 还 应 该 和 哪些 人 进行 交流 吗 ? 
(5) 大 多 数 人 不 是 房地产 行业 或 电子 商务 的 “领域 专家 ”。 

。 跨 出 自己 的 舒适 区 ， 学 会 在 一 个 不 同 的 环境 中 采集 数据 是 否 给 了 你 一 些 启示 ?使 得 
你 知道 如 何在 自己 的 领域 内 行事 。 

。 有 了 时候“ 领域 专家 ”有 他 们 专 有 的 词汇 。Doug 是 否 使 用 了 一 些 他 领域 内 的 专 有 词 
汇 是 你 所 不 理解 的 (“comps”“open houses”“CPC”) ? 有 了 时候， 如 果 你 不 明白 一 些 
专家 正在 使 用 的 词汇 ， 会 妨碍 你 搞 清楚 问题 。 养 成 提问 的 好 习惯 ， 因 为 迟早 你 会 碰 
到 一 些 你 不 明白 的 事 ， 这 需要 持之以恒 。 





(6) Doug 12$ 
在 你 做 这 
务 或 者 你 


示例 R 代 码 











I 他 的 公司 并 不 是 必须 要 有 一 个 数据 策略 。 也 没有 指定 数据 策略 的 业界 标准 。 
个 练习 的 过 程 中 ， 考 虑 一 下 是 否 有 一 些 你 想 推荐 的 最 佳 实践 ， 可 以 为 电子 商 
自己 的 领域 指定 数据 策略 提供 帮助 。 





TR R 代码 以 上 市 用 到 的 布鲁克 林 区 的 房屋 销售 数据 为 例 ， 进 行 了 数据 清理 和 探索 性 数据 
分 析 (练习 要 求 使 用 曼哈顿 的 数据 )。 


# 作者 : 





Benjamin Reddy 


require(gdata) 
bk <- read.xls("rollingsales_brooklyn.xls",pattern="BOROUGH") 


head(bk) 
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summary (bk) 


bkSSALE.PRICE.N <- as.numeric(gsub("[^[:digit:]]", "", 
bkSSALE.PRICE)) 
count(is.na(bkSSALE.PRICE.N)) 


names(bk) «- tolower(names(bk)) 


HE 使 用 正则 表达 式 清 理 和 格式 化 数据 

bk$gross.sqft <- as.numeric(gsub("[^[:digit:]]","", 
bkSgross.square.feet)) 

bk$land.sqft <- as.numeric(gsub("[^[:digit:]]","", 
bkSland.square.feet)) 





bkSsale.date <- as.Date(bk$sale.date) 
bkSyear.built <- as.numeric(as.character(bk$year.built)) 


t 做 一 些 探 索性 分 析 
HE 确保 销售 价格 无 异常 出 现 
attach(bk) 





hist(sale.price.n) 
hist(sale.price.n[sale.price.n»20]) 
hist(gross.sqft[sale.price.n--0]) 


detach(bk) 





HB 只 保留 有 价值 的 订单 
bk.sale <- bk[bk$sale.price.n!-0,] 





plot(bk.sale$gross.sqft,bk.sale$sale.price.n) 
plot(log(bk.sale$gross.sqft),log(bk.sale$sale.price.n)) 


H REL 2403 家 庭 住宅 

bk.homes «- bk.sale[which(grepl("FAMILY", 
bk.sale$building.class.category)),] 

plot(log(bk.homesSgross.sqft),log(bk.homesSsale.price.n)) 


bk.homes [which(bk.homes$sale.price.n«100000),] 
[order(bk.homes[which(bk.homesSsale.price.n«100000),] 
$sale.price.n),] 


HE 去 除 那些 看 起 来 不 像 真实 订单 的 奇异 值 
bk.homesSoutliers «- (log(bk.homes$sale.price.n) <=5) + 0 
bk.homes «- bk.homes[which(bk.homesSoutliers--0),] 


plot(log(bk.homesSgross.sqft),log(bk.homesSsale.price.n)) 
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算法 





上 一 章 探讨 了 数据 科学 中 模型 应 用 的 概况 ， 本 章 我 们 将 深入 学 习 算 法 。 


算法 是 完成 分 析 任 务 所 采纳 或 者 遵循 的 一 整套 步骤 和 规则 ， 它 是 计算 机 科学 中 一 个 基本 概 
念 ， 可 视 作 计算 机 科学 的 基石 。 设 计 优雅 高 效 的 代码 、 准 备 和 处 理 数据 以 至 软件 工程 开发 
均 以 算法 为 基础 。 


排序 、 查 找 、 基 于 图 的 计算 等 问题 都 是 算法 能 够 解决 的 。 然 而 ， 对 于 同一 个 问题 ， 基 于 效 
率 和 计算 时 间 的 考虑 ， 可 以 选 出 某 个 相对 最 优 的 算法 。 当 算法 要 解决 的 数据 分 析 问 题 涉 及 
海量 数据 ， 或 者 开发 面向 客户 的 产品 时 ， 基 于 效率 选择 最 优 的 算法 会 变 得 尤为 重要 。 


高 效 的 算法 是 准备 和 处 理 数据 的 基础 ， 算 法 的 执行 可 以 是 顺序 的 ， 也 可 以 是 并 发 的 。 就 数 
据 科学 来 说， 以 下 三 类 算法 是 必须 了 解 的 。 











(1) 数据 清理 和 预 处理 的 算法 。 比 如 排序 、MapReduce、Pregel。 

我 们 将 这 类 算法 称 为 数据 工程 ， 我 们 将 用 一 章 内 容 专门 介绍 这 类 算法 ， 然 而 ， 这 不 是 
本 书 的 重点 。 这 并 不 代表 你 永远 不 会 用 到 它们 ， 只 是 作为 一 类 算法 ， 本 书 并 不 予以 特 
殊 强 调 。 

(2) 用 于 参数 估计 的 最 优化 算法 。 比 如 Stochastic Gradient Descent (随机 梯度 下 降 )、 
Newton's Method (牛顿 法 ) 和 Least Squares (最 小 二 乘法 ) 。 在 本 书 中 ， 我 们 会 介绍 这 
些 算法 。 另 外 值得 一 提 的 是 ， 在 R 软件 中 这 些 算法 都 有 相应 的 实现 函数 。 

G) 机 器 学 习 算 法 。 该 类 算法 是 本 书 的 重点 ， 也 将 占据 本 书 的 大 部 篇 幅 ， 下 面 我 们 就 详细 
介绍 该 类 算法 。 





— 








39 


3.1 机 器 学 习 算 法 
机 器 学 习 算 法 的 应 用 主要 有 三 个 大 舞台 : 预测、 分 类 和 聚 类 。 


且慢 ! 在 上 一 章 中 你 不 是 刚刚 说 过 ， 是 用 模型 来 做 这 些 事情 吗 ? 确实 ! 这 里 似乎 有 一 点 混 
乱 ， 我 们 先 来 证 请 一 些 概念 。 


统计 模型 出 自 统 计 学 家 之 手 ， 机 器 学 习 算 法 则 是 计算 机 科学 家 所 开发 的 。 但 某 些 技术 和 
方法 在 统计 模型 和 机 器 学 习 算法 之 中 都 会 用 到 。 因 此 ， 在 本 书 中 这 两 个 词 有 时 可 以 换 着 
使 用 。 


你 会 发 现 本 书 中 的 一 些 算法 ， 比 如 线性 回归 ， 在 机 器 学 习 和 统计 学 的 书 中 都 会 出 现 。 讨 论 
这 些 算法 到 底 来 源 于 哪个 学 科 没 有 太 大 的 实际 意义 。 


一 般 来 讲 ， 机 器 学 习 是 人 工 智 能 的 基础 ， 比 如 图 像 识 别 、 语 音 识别 、 推 荐 系统 、 排 名 和 个 
性 化 推荐 系统 技术 一 一 这 些 都 是 打造 数据 产品 的 基础 。 然 而 传统 的 统计 学 院 里 可 能 不 会 设 
置 这 些 课程 。 因 为 这 些 算法 的 作用 往往 不 是 为 了 推断 数据 背后 的 生成 过 程 (这 是 统计 推断 
的 目的 所 在 )， 而 是 为 了 尽 可 能 准确 地 预测 和 分 类 。 

















Rachel 在 谷歌 工作 期 间 ， 以 及 参加 一 些 学 术 会 议 时 ， 发 现 机 器 学 习 专 家 和 统计 学 家 在 处 理 
问题 的 方式 上 也 有 所 不 同 ， 这 种 不 同 反 应 了 各 自学 科 文 化 上 的 差异 。 但 作为 数据 科学 家 ， 
应 该 能 够 在 两 种 思维 模式 下 自由 的 切换 。 


这 里 我 们 澄 请 一 些 基本 概念 。 








。 关于 参数 的 解释 

统计 学 家 认为 模型 中 的 参数 必须 在 现实 世界 中 是 有 意义 的 。 就 拿 线性 回归 模型 来 说 ， 模 
型 中 的 参数 往往 都 对 应 着 现实 世界 中 的 某 种 行为 或 者 现象 ， 因 此 模型 可 以 看 做 是 现实 世 
界 的 某 个 缩影 。 而 参数 在 软件 工程 师 或 计算 机 科学 家 的 眼中 又 是 另 一 备 景 俏 ， 他 们 主要 
关心 的 是 如 何 将 算法 (包含 其 中 的 参数 ) 植 和 到 数据 产品 中 ， 模 型 有 些 可 以 很 复杂 ， 
至 难以 解释 。 有 些 模型 甚至 被 叫 作 黑匣子 ， 因 为 他 们 根本 不 知道 模型 内 部 到 底 是 如 何 运 
作 的 。 他 们 通常 不 会 关注 模型 参数 的 意义 。 即 便 他 们 想 要 关注 ， 也 可 能 是 只 是 为 了 提升 
模型 的 预测 能 力 ， 而 不 是 为 了 解释 这 些 参 数 。 




















。 置信 区 间 

在 统计 学 中 ， 置 信 区 间 和 后 验 分 布 用 来 描述 参数 估计 的 不 确定 性 。 但 是 ， 有 些 机 器 学 习 
算法 ， 比 如 均值 算法 (k-means) 和 大 近邻 算法 (k-nearest neighbors) ， 就 不 涉及 置信 
区 间 和 参数 估计 的 不 确定 性 问题 。 我 们 稍 后 会 详细 介绍 这 两 个 算法 。 











。 显 式 假设 的 角色 
统计 模型 会 对 数据 的 生成 过 程 和 数据 的 分 布 做 出 一 些 明确 的 假设 ( 称 作 显 式 假设 )， 统 
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计 推 断 的 过 程 往往 是 建立 在 这 些 假设 的 基础 之 上 。 而 本 章 稍 后 将 要 介绍 的 非 参 数 检验 方 
法 ， 并 不 对 概率 分 布 做 任何 显 式 假设 (可 能 是 隐 式 的 )。" 











可 以 说 ,统计 学 家 每 天 都 在 和 “不 确定 性 ”打交道 ， 对 任何 事情 他 们 都 不 会 100% 的 确信 。 
而 软件 工程 师 喜欢 打造 产品 ， 他 们 喜欢 构建 模型 以 尽 可 能 精确 地 做 出 预测 ， 但 他 们 可 能 
不 关心 模型 本 身 的 不 确定 性 一 一 只 要 模型 效果 好 就 行 ! 像 Facebook 和 谷歌 这 样 的 公司 ， 其 
理念 就 是 打造 产品 ， 并 随 着 新 数据 的 育 入 不 断 友 代 与 更 新 产品 。 一 个 数据 科学 家 要 能 够 在 
统计 学 和 计算 机 科学 的 思维 方式 之 间 找 到 一 个 平衡 点 ， 要 取长补短 。 数 据 科学 家 的 身上 同 
时 流 消 着 统计 学 家 和 计算 机 科学 家 的 血液 ， 大 可 不 必 厚 此 薄 彼 。 最 后 让 我 们 引用 客座 讲师 
Josh Wills 的 话 对 本 节 做 一 总 结 ， 他 的 这 番 话 被 推导 上 很 多 人 引用 过 : 























“数据 科学 家 是 软件 工程 师 中 最 好 的 统计 学 家 ， 是 统计 学 家 中 最 好 的 软件 工程 
yp." 





Josh Wills 


3.2 三 大 基本 算法 

对 于 数学 科学 家 来 说 ， 商 业 和 现实 世界 中 的 很 多 问题 都 可 以 转化 为 相应 的 数学 模型 的 形 
式 ， 最 终 都 可 以 归 类 为 分 类 和 预测 两 大 问题 。 学 术 界 和 工业 界 对 这 两 大 问题 的 研究 已 经 比 
较 成 熟 了 ， 有 很 多 的 算法 可 以 直接 拿 来 用 。 


作为 一 个 数据 科学 家 ， 在 熟练 掌握 各 种 算法 之 后 ， 真 正 的 挑战 其 实 才 刚刚 开始 。 你 需要 根 
据 特 定 问题 和 隐 仿 的 假设 来 融 板 到 底 使 用 哪个 算法 或 者 模型 。 这 种 判断 部 分 源 自 经 验 : 当 
解决 的 问题 足够 多 时 ， 每 当 过 到 一 个 新 的 问题 你 可 能 会 思考 :“ 这 是 一 个 典型 的 分 类 问题 ， 
模型 的 输出 变量 是 一 个 二 元 变量 “这 应 该 也 是 一 个 分 类 问题 ， 但 奇怪 的 是 输出 变量 没有 
做 任何 标签 "。 同 样 都 是 分 类 问题 ， 你 却 知 道 应 该 使 用 不 同 的 算法 处 理 。( 第 一 个 问题 ， 你 
可 能 会 选择 逻辑 回归 或 者 村 素 贝 叶 斯 模型 ,第 二 个 问题 可 以 采用 均值 算法 。 稍 后 我 们 会 
更 详细 的 介绍 这 些 算 法 。) 





























当 你 还 是 个 学 生 或 初学 者 时 ， 乍 听 这 些 算 法 可 能 会 有 点 不 知 所 措 ， 你 时 常会 想 “ 我 怎么 知 
道 我 想 解 决 的 这 个 问题 需要 使 用 哪 种 算法 。 这 些 都 是 建 模 的 内 功 ， 是 需要 花 时 间 和 精力 
去 领悟 的 。 


有 一 种 人 拿 着 锤子 ， 觉 得 满 世界 都 是 钉子 。“ 我 会 线性 回归 ， 磁 到 的 所 有 问题 我 都 想 用 线 
性 回归 模型 去 解决 .” 千 万 不 要 这 样 ， 作 为 一 个 合格 的 数据 科学 家 ， 要 不 断 尝试 去 了 解 问 
题 的 上 下 文 和 问题 本 身 的 属性 ， 把 它们 用 数学 模型 的 形式 表达 出 来 ， 然 后 再 想 想 你 学 习 过 
的 算法 中 哪些 可 以 用 来 解决 该 问题 ， 哪 些 更 加 适合 这 个 问题 。 




















注 1: 比如 说 , 分布 是 对 称 的， 或 者 光滑 的 。 
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如 果 你 还 是 心里 没 底 ， 找 个 懂行 的 人 去 深入 探讨 一 番 也 无 妨 。 问 同 你 的 同事 ， 参 加 一 个 讨 
论 组 ， 或 者 在 你 的 周围 发 起 一 个 这 样 的 讨论 组 。 问 题 之 所 以 成 为 问题 ， 就 在 于 它 的 解决 方 
案 不 是 显而易见 的 。 要 时 刻 保持 这 样 虚心 的 态度 ， 这 样 当 你 去 解决 一 个 问题 时 ， 就 会 更 加 
审慎。 你 不 必 成 为 一 个 建 模 领 域 的 “百事 通 ”， 不 要 说 :“ 显 然 ， 这 个 问题 使 用 带 有 惩罚 项 
的 线性 回归 模型 就 能 解决 。” 千 万 别 轻易 下 结论 ， 即 使 有 时 你 认为 答案 很 明显 ， 也 要 多 了 听 
昕 旁人 的 意见 。 


之 所 以 说 起 这 些 ， 是 因为 我 们 总 是 笃信 教科 书 教 给 我 们 的 。 教 科 书 总 是 把 问题 和 解决 这 些 
问题 的 方法 都 摆 出 来 ， 然 后 告诉 你 哪 类 问题 应 该 用 哪 种 方法 。( 比 如 ， 用 体重 预测 身高 应 
该 使 用 线性 回归 模型 。) 这 样 的 教科 书 学 习 模 式 对 于 刚 开 始 理 解 和 学 习 线 性 回归 模型 是 有 
一 定好 处 的 : 因为 新 的 知识 被 吸收 是 需要 一 定时 间 的 ， 需 要 多 加 练习 。 但 是 ， 当 你 熟练 党 
握 了 这 项 技术 后 ， 真 正 的 挑战 在 于 你 能 否 从 一 开始 就 要 知道 什么 情况 下 应 该 使 用 线性 回归 
模型 。 这 里 面 存 在 的 挑战 往往 是 教科 书 不 会 告诉 我 们 的 。 


本 书 不 会 讨论 所 有 的 机 器 学 习 算 法 ， 毕 竞 本 书 不 是 一 本 有 关机 器 学 习 的 书 。 关 于 算法 的 书 
市 面 上 已 经 有 很 多 了 ， 而 且 有 些 写 得 非常 好 。 


话 虽 如 此 ， 我 们 还 是 会 在 本 章 介 绍 三 种 基本 的 算法 ， 随 着 本 书后 续 内 容 的 展开 ， 还 会 介绍 
其 他 算法 。 学 习 这 些 算法 的 目的 其 实在 于 培养 举一反三 的 能 力 : 在 遇 到 新 的 、 非 教科 书 式 
的 问题 时 ， 我 们 要 起 码 能 看 清 解 决 问题 的 可 能 方向 。 


我 们 会 在 书 中 尽量 展示 数据 科学 家 在 面 对 一 个 问题 时 的 思考 过 程 ， 结 合 问题 的 上 下 文 ， 该 
如 何 确 定 该 使 用 哪 种 算法 。 我 们 建议 读者 在 遇 到 一 个 数据 问题 时 ， 习 惯性 的 让 自己 思 埃 : 
这 个 问题 的 属性 是 什么 ?这 些 属性 如 何 影响 到 算法 的 选择 ? 


这 里 先 介绍 一 些 基 本 的 机 器 学 习 算法 ， 让 我 们 以 线性 回归 、 大 近邻 (-NN) 和 大 均值 作为 
开始 。 就 像 之 前 说 的 ， 算 法 的 选择 与 问题 的 属性 相关 ， 要 看 这 些 算法 是 否 适合 解决 该 问 
题 。 同 时 也 应 该 从 另 一 个 角度 审视 这 些 算法 ， 哪 些 模式 是 我 们 仅 赁 肉眼 就 可 以 发 现 的 ? 当 
数据 变 得 复杂 时 ， 光 凭 眼睛 观察 数据 中 的 模式 会 变 得 不 现实 ， 这 时 候 ， 就 要 及 时 借助 计算 
机 的 帮助 了 。 


































































































3.2.1 线性 回归 模型 

线性 回归 是 统计 学 中 最 常用 的 算法 之 一 。 从 根本 上 来 说 ， 当 你 想 表 示 两 个 变量 间 的 数学 关 
系 时 ， 就 可 以 使 用 线性 回归 。 当 你 使 用 它 时 ， 你 首先 假设 输出 变量 (有 时 称 为 响应 变量 、 
因 变 量 或 标签 ) 和 预测 变量 (有 时 称 为 自 变 量 、 解 释 变量 或 特征 ) 之 间 存 在 线性 关系 。 当 
然 这 种 线性 关系 也 可 能 存在 于 一 个 输出 变量 和 数 个 预测 变量 之 间 ?)。 























注 2: 这 称 作 多 元 线性 回归 。 
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到 底 是 算法 还 是 模型 ? 


在 本 章 的 开始 ， 我 们 就 两 者 的 差别 做 过 说 明 。 从 定义 上 来 说 ， 两 者 是 完全 不 同 的 ， 然 
而 在 日 常 使 用 时 却 常常 可 以 交替 使 用 ， 这 给 大 家 带 来 了 些许 困扰 。 严 格 来 说 ， 算 法 
是 完成 某 项 任务 时 需要 遵循 的 一 组 规则 或 步 又， 而 模型 是 对 世界 一 种 附 有 假设 的 描 
述 。 这 两 个 概念 看 起 来 显然 是 不 同 的 ， 它 们 的 区 别 也 应 该 是 显而易见 的 。 然 而 ， 现 
实 来 看 并 非 如 此 。 比 如， 回归 可 以 是 一 个 统计 学 模型 ， 也 可 以 是 一 种 机 器 学 习 算 法 。 
我 们 觉得 ， 要 精确 区 分 两 者 之 间 差 别 ， 是 在 浪费 时 间 ， 毫 无 必要 。 

从 某 种 程度 上 说 ， 这 是 个 历史 遗留 问题 。 统 计 学 和 计算 机 科学 一 直 在 并 行 发 展 ， 他 们 
常常 使 用 不 同 的 词汇 描述 同样 的 东西 。 这 也 就 导致 很 难 确 定 某 个 概念 到 底 是 机 器 学 
习 算 法 还 是 统计 模型 。 有 一 些 方法 (比如 下 一 节 要 讨论 的 大 均值 ) 我们 称 为 算法 ， 从 
统计 学 的 角度 来 看 ， 它 又 是 一 种 特殊 的 高 斯 混合 模型 。 

因此 我 们 建议 ， 当 人 们 谈 起 这 些 方法 时 ， 既 可 以 说 事 算法 也 可 以 说 是 模型 尽量 不 
要 让 这 些 干 扰 到 你 。( 其 实在 这 一 行 混 这 么 久 了 ， 我 们 也 时 常 对 此 感到 困惑 。) 











输出 变量 和 预测 变量 之 间 存 在 线性 关系 是 一 个 大 胆 的 假设 ,同时 也 是 一 个 最 简单 的 假设 。 
从 数学 表示 形式 来 看 ， 线 性 函数 比 非 线性 函数 更 加 基本 。 在 解决 问题 的 时 候 ， 我 们 总 是 从 
最 简单 的 模型 开始 着 手 ， 线 性 模型 是 个 不 错 的 选择 。 


即便 简单 ， 但 是 线性 假设 有 时 候 也 不 无 道理 。 有 时 候 ， 一 个 变量 的 变化 和 另 一 个 变量 的 变 
化 的 确 是 线性 的 。 比 如 ， 你 卖 的 伞 越 多 ， 你 赚 的 钱 越 多 。 此 时 ， 你 可 以 充分 相信 自己 做 出 
的 线性 假设 是 合理 的 。 而 有 时 候 ， 确 认 变量 之 间 的 线性 关系 是 困难 的 。 但 是 微 积分 的 角度 
来 说 ， 只 要 函数 是 连续 的 ， 函 数 可 以 被 一 些 局 部 线性 的 函数 所 拟 合 。 因 此 ， 局 部 线性 假设 
大 多 数 情况 下 都 是 合理 的 ， 但 是 全 局 线性 假设 就 很 难说 了 。 

















线性 模型 可 能 适用 于 类 似 下 面 的 一 些 问题 ， 比 如 说 你 正在 研究 一 个 公司 的 销售 额 和 该 公司 
在 广告 上 的 投入 之 间 的 关系 ， 或 者 某 人 在 社交 网 站 上 的 好 友 数 量 和 他 每 天 在 该 社交 网 站 上 
花费 的 时 间 之 间 的 关系 。 这 些 问 题 的 输出 变量 都 是 数值 型 的 ， 也 就 意味 着 线性 回归 模型 可 
能 是 一 个 不 错 的 选择 。 最 起 码 可 以 说 ， 我 们 从 线性 模型 作为 研究 的 起 步 是 没有 太 大 问题 的 。 
理解 线性 回归 的 一 个 切入 点 是 先 来 确定 那 条 直线 。 我 们 知道 ， 通 过 斜率 和 截 距 就 可 以 完全 
确定 一 条 直线 y = f(x) = po 十 hx， 但 是 ， 这 样 的 一 条 直线 是 完全 确定 的 。° 

考虑 随机 函数 ， 即 便 是 对 于 数学 功底 不 错 的 我 们 来 说 ， 也 是 一 个 新 鲜 的 概念 ， 但 是 在 数据 


科学 中 却 再 常见 不 过 了 。 然 而 ， 随 机 函数 从 根本 上 来 说 ， 还 是 建立 在 确定 型 函数 的 基础 之 
上 的 。 因 此 ， 我 们 不 妨 先 讨论 一 下 确定 型 函数 的 概念 ， 用 几 个 例子 来 切身 感受 一 下 。 



































注 3: 这 样 的 确定 型 函数 模型)》 对 于 数据 分 析 来 说 起 到 了 方向 性 的 作用 ,但 是 数据 往往 是 有 很 大 噪声 的 ， 
这 就 需要 在 确定 型 函数 的 基础 之 上 考虑 噪声 ， 也 就 是 随机 性 的 存在 ， 见 下 文 。 
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例子 1: 确定 型 函数 关系 ”假设 你 是 某 个 社交 网 站 的 创立 者 ， 这 个 网 站 对 所 有 的 会 员 都 收 
取 每 月 25 美元 的 会 费 ， 而 这 笔 钱 是 你 唯一 的 经 济 来 源 。 每 个 月 你 都 会 搜集 关于 会 员 数 和 
网 站 利润 的 数据 并 持续 了 两 年 的 时 间 。 你 把 这 些 数据 都 录 在 了 一 个 表格 当中 。 从 数据 的 表 
现形 式 来 说 ， 这 些 数据 可 以 表示 成 一 个 个 数据 对 的 形式 (用 户 数 ， 利 润 值 )， 比 如 下 面 就 
是 从 数据 中 摘 取 的 前 四 个 数据 点 : 

















S= {(x,y)=(1,25), (10,250), (100, 2500), (200, 5000)} 


如 有 果 你 只 把 这 4 个 数据 点 给 你 的 任何 一 个 朋友 看 ， 即 便 这 个 朋友 根本 不 知道 你 在 做 社交 网 
站 以 及 你 是 如 何 收费 的 《这样 的 朋友 绝 交 了 也 罢 )， 他 们 也 能 一 眼看 出 数据 点 中 绚 含 的 数 
学 模型 ， 如 果 用 y 表示 理论 ，x 表示 用 户 数 ， 则 ?= 25x。 因 为 其 中 的 模式 太 过 明显 ， 只 需 
要 在 脑子 里 面 一 过 就 可 以 迅速 得 到 下 面 三 个 结论 : 

。 两 者 的 关系 是 线性 的 ， 


。 线性 关系 的 强度 值 是 25; 
。 应 该 是 一 个 确定 型 的 关系 ， 最 起 码 从 前 4 个 点 来 看 没有 例外 。 















































为 了 再 次 确认 自己 的 判断 ， 你 可 以 用 散 点 图 画 出 这 4 个 点 ， 其 中 的 关系 就 一 目 了 然 了 : 的 
确 ， 是 一 条 严格 的 ， 确 定型 的 线性 关系 。 参 见 图 3-1。 
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图 3-1: 一 个 严格 确定 型 的 线性 关系 图 
例子 2: 用 户 使 用 数据 假设 你 有 一 个 用 户 数据 : 数据 的 每 一 行 代表 一 个 用 户 ， 数 据 的 
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每 一 列 是 用 户 在 社交 网 站 上 一 段 时 间 的 某 个 行为 变量 。 假 设 数据 已 经 被 清理 过 了 ， 总 样 
本 量 多 达 几 十 万 。 数 据 的 变量 包括 “总 好 友 数 ”“ 本 周 新 好 友 数 ”“ 总 访问 量 ”“ 总 浏览 时 
间 ”“ 下 载 的 程序 数 ”“ 被 展示 的 广告 数 ”“ 性 别 ” “年龄 ”等 。 在 探索 性 分 析 阶 段 ， 你 可 能 
只 需要 从 所 有 的 用 户 中 随机 抽取 100 个 样本 即 可 。 为 了 探索 变量 之 间 的 相互 关系 ， 可 以 
用 类 似 图 3-1 那样 散 点 图 的 方法 。 比 如 这 里 我 们 关心 的 目标 变量 了 = 总 浏览 时 间 (单位 为 
fb), ， 预 测 变量 X= 新 的 好 友 数 。 从 商业 模式 的 角度 来 看 ， 如 果 你 的 商业 模式 是 卖 广告 ， 那 
么 很 明显 新 用 户 数 越 多 越 好 ， 你 会 承诺 给 登 广 告 的 客户 最 低 的 新 用 户 数 ， 这 时 候 就 要 用 到 
预测 模型 了 ， 因 为 你 希望 能 够 提前 数 天 或 者 数 周知 晓 可 能 的 新 用 户 数量 。 这 里 我 们 先 把 问 
题 简化 ， 看 一 下 两 个 变量 之 间 的 关系 。 看 一 眼 随机 抽取 的 100 歌 数 据 ， 前 6 行 是 这 样 的 : 




















7 276 
3 43 
4 82 
6 136 
10 417 
9 269 








乍 一 看 ， 不 像 之 前 的 例子 ， 我 们 已 经 很 难 一 眼看 出 两 个 变量 之 间 的 函数 关系 了 (即使 你 有 
读 统计 学 的 朋友 ， 他 们 也 未 必 能 一 眼看 出 )。 因 为 实际 上 还 有 很 多 数据 ， 所 以 这 个 时 候 靠 
拍 脑袋 是 没有 用 的 ， 不 妨 把 它们 的 关系 散 点 图 画 出 来 ， 如 图 3-2 所 示 。 
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图 3-2: 看 似 线性 关系 的 散 点 图 
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从 散 点 图 来 看 ， 这 两 个 变量 之 间 有 着 某 种 线性 联系 。 这 个 结论 是 合情合理 的 ， 因 为 如 果 你 
的 新 好 友 数 越 多 ， 你 很 可 能 会 花 更 多 的 时 间 在 网 站 上 。 但 是 这 里 的 线性 联系 不 能 用 一 个 确 
定型 的 函数 来 表示 ， 因 为 很 明显 不 是 所 有 的 点 都 在 一 条 直线 上 。 但 是 即便 如 此 ， 我 们 还 是 
可 以 说 ， 两 个 变量 之 间 的 线性 关系 是 存在 的 : 变量 的 增加 同时 也 带动 着 了 变量 的 增加 ， 
增加 的 趋势 倾向 于 是 一 条 直线 ， 反 之 亦 然 。 


小 贴 士 

模型 对 于 数据 来 说 ， 主 要 是 用 来 捕捉 其 中 两 个 方面 的 信息 : 第 一 个 是 趋势 (trend), $ 
个 是 变动 幅度 (variation)。 我 们 先 从 趋势 说 起 。 

首先 我 们 假设 , X 变 量 和 了 变量 之 间 的 关系 确实 是 线性 的 ， 于 是 我 们 会 尝试 在 其 中 画 一 条 
直线 。 


有 很 多 条 直线 看 起 来 都 有 可 能 是 不 错 的 选择 ， 我 们 在 其 中 画 了 几 条 ， 如 图 3-3 所 示 。 



























































新 好 友 个 数 





3-3: 哪 条 直线 最 佳 呢 

这 么 多 直线 ， 我 们 到 底 应 该 选择 哪 一 条 呢 ? 

因为 我 们 假设 了 两 个 变量 之 间 的 关系 是 线性 的 ， 因 此 模型 的 形式 可 以 表示 为 : 
y= fo + fix 


那么 接 下 来 的 工作 就 是 ， 在 给 定数 据 样本 co, y) A V), ns Co V 的 情况 下 ， 确 定 最 佳 
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的 截 距 ( bo) 估计 值 和 斜率 (4) 估计 值 。 


线性 模型 也 可 以 用 矩阵 表示 : 

y=x f 
其 中 x 是 数据 矩阵 ，8 是 参数 向 量 。 我 们 的 任务 就 是 ， 找 一 条 最 佳 的 直线 (参数 向 量 估 计 
值 ) 拟 合 数据 。 
模型 拟 合 
那么 参数 向 量 8 到 底 如 何 估计 呢 ? 一 个 直观 的 想法 是 ， 如 果 存 在 一 条 最 佳 拟 合 的 直线 ， 那 
么 所 有 样本 数据 点 到 这 条 的 直线 的 距离 应 该 是 所 有 直线 中 最 小 的 。 
很 可 能 会 由 很 多 线 看 起 来 都 拟 合 得 不 错 ， 但 是 最 优 的 只 有 一 条 。 可 能 有 很 多 种 定义 “最 
优 ” 的 方式 ， 对 于 线性 回归 来 说 ， 这 里 的 “最 优 ” 指 的 是 距离 最 小 化 。 那 么 “距离 ”在 这 
里 又 是 什么 意思 呢 ? 








我 们 用 图 3-4 为 大 家 讲解 一 下 “距离 ”的 概念 。 假 设 数据 点 的 y 值 用 表示， 其 在 直线 上 的 
拟 合 值 (预测 值 ) 为 加 ， 那 么 一 个 样本 点 与 其 拟 合 值 的 距离 可 以 定义 为 两 个 点 在 y 值 上 的 
BAEP: 0-9) 。 所 有 数据 点 的 距离 之 和 也 称 作 “ 离 差 平方 和 ”，》) (y 一 9^. Rt 
的 那 条 直线 具有 最 小 的 “ 离 差 平方 和 ”。 可 以 看 出 ， 这 里 距离 的 定义 ， 也 就 是 “ 离 差 平方 和 ” 
还 可 以 解释 为 模型 的 预测 误差 。 这 样 的 估计 方法 就 是 著名 的 最 小 二 乘 估计 法 。 




















600 





400 





EHE) m et 


(总 


200 











新 好 友 个 数 
图 3-4: 具有 最 小 “ 离 差 平方 和 ”的 那 条 最 优 拟 合 直 线 
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离 差 平方 和 表示 为 RSS (Residual Sum of Squares) ， 可 以 表示 为 ; 

RSS(B) = 2 0 — xo" 
i 代表 某 个 数据 点 。 离 差 平 方 和 是 一 个 有 关于 的 函数 ， 而 为 了 找到 最 优 的 6， 我 们 需要 最 
小 化 离 差 平方 和 。 


微 积 分 告诉 我 们 ， 对 RSS (B) 针 对 Bb 求 导 并 令 其 为 0 即 可 找到 可 能 的 最 优 解 。 
RSS(B) = (y — Bx) (y — Bx)， 可 以 得 到 : 


B= x) xy 
6 代表 的 估计 值 ， 真实 的 8 是 无 从 得 知 的 。 在 得 到 8 估计 值 的 表达 式 之 后 ， 主 要 将 观测 数 
据 的 值 代入 即 可 计算 出 实际 的 估计 值 。 


在 R 软 件 中 拟 合 一 个 线性 模型 再 简单 不 过 了 ,假设 有 一 列 数据 代表 因 变 量 了 ， 一 列 数据 代 
表 自 变量 x， 则 拟 合 的 R 代码 为 : 




















model <- lm(y ~ x) 


假设 真实 的 数据 真 像 我 们 之 前 展示 的 那样 ， 其 前 6 行为 : 





x y 
7 276 
3 43 

4 82 

6 136 
10 417 
9 269 


那么 用 下 面 的 R 代码 : 


> model «- lm(y ~ x) 
» model 


Call: 
lm(formula = y ~ x) 


Coefficients: 
(Intercept) x 
-32.08 45.92 


> coefs <- coef(model) 

> plot(x, y, pch=20,col="red", xlab="Number new friends", 
ylab-"Time spent (seconds)") 

» abline(coefs[1],coefs[2]) 
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因此 ， 模 型 最 终 的 最 优 估计 直线 为 : 了 =- 32.08 + 45.92x， 当 然 也 可 以 简化 为 
y 二 一 32 + 46x ， 拟 合 的 直线 效果 见 图 3-5 的 左 半 部 分 。 
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3-5: 左 图 是 线性 回归 的 最 优 拟 合 直线 。 可 以 看 到 ， 对 于 任意 固定 的 x 值 ， 比 如 x = 5, 相应 的 了 
值 在 观测 数据 层面 是 可 变 的 。 对 于 x = 5, 我 们 在 右 图 画 出 了 相应 了 预测 值 的 可 能 分 布 

















至 于 到 底 是 否 采 纳 这 个 线性 模型 ， 将 它 用 于 数据 关系 描述 和 结果 预测 ， 这 取决 于 数据 科学 
家 自己 的 判断 。 如 果 新 数据 的 x 值 为 5， 代 表 某 人 的 新 好 友 数 为 5， 那么 根据 模型 ，y 的 预 
测 值 为 -32.08 + 45.82 x5 = 195.7 ( 秒 )。 一 个 自然 的 问题 是 ， 对 于 得 到 的 预测 值 ， 我 们 有 
多 大 的 自信 认为 它 会 十 分 接近 真实 值 呢 ? 


这 在 统计 学 上 叫 作 置信 值 的 问题 ， 解 答 它 需 要 将 模型 的 内 涵 稍 作 延 伸 。 可 以 想象 ， 如 果 用 
户 的 新 好 友 数 为 5， 那 么 这 些 用 户 在 网 站 上 花费 时 间 的 预测 值 不 可 能 只 是 一 个 定 值 195.7 
秒 ， 一 个 合理 的 情况 是 这 些 用 户 花 费 的 时 间 都 在 195.7 秒 附近 波动 。 因 此 ， 线 性 模型 得 到 
的 预测 值 只 是 所 有 可 能 预测 值 的 一 个 总 体 起 势 ， 而 围绕 这 个 趋势 的 波动 性 还 没有 被 模型 考 
最 小 二 乘 模型 的 延伸 

我 们 刚刚 讨论 的 是 一 个 简单 线性 回归 模型 (一 个 输出 变量 ， 一 个 预测 变量 )， 模 型 参数 的 
预测 采用 了 最 小 二 乘法 来 估计 pp。 在 此 模型 的 基础 上 ， 我 们 可 以 主要 从 三 个 方面 加 以 延伸 : 





(D 增添 一 些 关 于 模型 误差 项 的 假设 ， 
(2) 增添 更 多 预测 变量 ; 
(3) 对 预测 变量 加 以 变换 。 


增添 关于 模型 误差 项 的 假设 
如 果 你 只 是 应 用 线性 模型 预测 给 定 x 值 情况 下 的 y 值 ， 那 么 得 到 的 预测 值 只 是 一 个 确定 值 ， 
这 就 忽视 了 预测 必然 存在 的 可 变性 。 图 3-5 CH) 就 很 好 地 说 明了 这 个 问题 ， 对 于 一 个 给 
定 的 x = 5 的 预测 情形 ,，y 的 值 是 不 定 的 。 为 了 让 模型 捕捉 数据 中 的 不 确定 性 ， 可 以 将 模型 
的 形式 扩展 为 : 

y=H 二 APx 十 6E 
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其 中 的 e 是 模型 中 的 新 加 项 ， 也 称 作 “噪声 ”项 ， 代 表 数 据 中 不 能 被 模型 部 分 拟 合 的 部 分 。 
它 也 称 作 误差 项 一 一 e 代表 模型 的 实际 误差 ， 也 就 是 实际 观测 值 与 真实 回归 直线 上 所 得 值 
的 差距 。 真 实 的 回归 直线 永远 是 未 知 的 ， 而 你 只 能 通过 估计 。 


我 们 通常 假设 该 残 差 想 服从 一 个 均值 为 0， 方差 未 知 的 正 态 分 布 ， 故 : 























e ~ N(0,07) 
»» o. 
对 残 差 项 的 正 态 分 布 假设 有 时 候 是 不 合理 的 ， 比 如 说 当 数 据 具 有 明显 的 “ 厚 
p^ 。 尾 分 布 ” (fat-tailed distribution) 特征 时 ， 或 者 模型 的 主体 部 分 只 能 拟 合 数据 
全 中 的 一 小 部 分 特征 时 。 在 金融 数据 建 模 中 ， 这 都 是 经 常 发 生 的 ， 因 此 正 态 分 
布 的 假设 很 难 适 用 于 对 金融 数据 的 建 模 。 
































但 是 ， 这 页 并 不 代表 我 们 在 金融 数据 研究 中 完全 握 弃 线性 回归 模型 (及 其 误 
差 项 的 正 态 分 布 假设 )， 只 是 说 金融 数据 中 的 厚 尾 特征 为 传统 的 线性 回归 模 
型 提出 了 挑战 。 














在 误差 项 的 正 态 分 布 假设 下 ， 我 们 可 以 从 条 件 分 布 的 角度 解释 线性 回归 模型 。 也 就 是 说 ， 
对 于 给 定 的 x,，y 的 条 件 分 布 是 一 个 正 态 分 布 : 

pO |x) — N(Bo + hix, o) 
回 到 刚才 x = 5 的 情形 ， 也 就 是 说 ， 对 于 所 有 新 好 友 数 为 5 的 用 户 ， 他 们 在 社交 网 站 上 花 
费 的 时 间 服 从 一 个 正 。 态 分 布 ， 该 分 布 的 均值 为 Bo + Pl*5， DEIF. By. BAG 的 
值 需要 从 数据 中 估计 。 


那么 现在 的 问题 是 ， 到 底 如 何 拟 合 这 个 模型 呢 ? 到 底 如 何 估计 这 些 参数 值 呢 ? 








Ya 


w 其 实 ， 可 以 从 数学 上 证 明 ， 无 论 误差 项 的 分 布 形态 如 何 ， 最 小 二 乘 估计 都 
A a 
W 
[] 














， 具 备 同样 优良 的 性 质 ， 它 是 无 偏 估 计量 ， 并 且 具 有 最 小 的 估计 方差 。 若 想 

^ 了 解 该 性 质 以 及 其 中 数学 证 明 的 细节 ， 我 们 建议 大 家 zhao 找 一 些 有 关 统 
计 推 断 的 书 读 一 读 ， 比 如 Casella 和 Berger 合 著 的 《统计 推 新 》 (Statistical 
Inference), 




















避 和 Bi 的 估计 方法 我 们 已 经 探讨 过 了 ， 是 基于 最 小 二 乘 估 计 的 ， 因 此 难题 是 到 底 如 何 估计 
三。 基本 的 想法 是 用 实际 的 观测 误差 ， 也 称 作 残 差 ， 去 估计 实际 的 误差 。 实 际 残 差 为 : 


ei — yi — yi =y (P + Âx), i= 1,.…,n 


太 的 无 偏 估 计量 为 : 








Fa 





看 到 上 面 的 公式 ， 好 奇 心 重 的 同学 肯定 会 问 ; 为 什么 上 式 中 的 分 母 是 n - 2 
Qa. TE? 这 是 因为 ， 如 果 用 -2 作为 分 母 ， 而 不 用 n， 那 么 这 个 误差 估计 量 在 统 
疏 ” 计 学 上 来 说 称 作 一 个 无 偏 估计 量 。7 - 2 中 的 2 时 模型 中 参数 的 个 数 。 上 面 
提 到 过 的 Casella 和 Berger 合 著 的 《统计 推断 》 一 书 有 详细 的 背景 知识 介绍 ， 

感 兴趣 的 同学 不 妨 翻 看 一 下 。 














上 面 的 方差 估计 量 也 叫 作 均 方 误差 (mean squared error)， 它 衡量 的 是 预测 值 偏离 实际 观测 
值 的 程度 。 对 于 预测 问题 来 说 ， 均 方 误差 是 被 广泛 使 用 的 一 个 误差 估计 量 。 对 于 回归 问题 
来 说 ， 它 可 以 作为 一 个 方差 估计 量 ， 但 是 对 于 其 他 的 问题 ， 我 们 可 能 不 能 简单 地 把 它 解释 
为 此 。 接 下 来 我 们 还 会 反复 提 到 均 方 误差 的 概念 。 

模型 评估 标准 

我 们 之 前 问 过 类 似 的 问题 ， 对 于 模型 参数 的 估计 值 ， 我 们 有 多 大 的 信心 它们 是 准确 的 呢 ? 
从 R 的 模型 输出 来 看 ， 我 们 可 以 依赖 p 值 和 R 方 这 两 个 统计 量 。 在 R 中 ， 在 拟 合 了 一 个 
模型 之 后 ， 如 果 在 控制 台中 输入 summary(model)， 那 么 会 得 到 以 下 输出 结果 : 

















summary (model) 
Call: 
lm(formula = y ~ x) 


Residuals: 
Min 1Q Median 3Q Max 
-121.17 -52.63 -9.72 41.54 356.27 


Coefficients: 
Estimate Std. Error t value Pr(»|t|) 
(Intercept) -32.083 16.623  -1.93 0.0565. 
x 45.918 2.141 21.45 «2e-16 *** 
Signif. codes: © '***' 0.001 '**' 0.01 '*' 0.05 *'. 0.1 * ' 1 


Residual standard error: 77.47 on 98 degrees of freedom 
Multiple R-squared: 0.8244, Adjusted R-squared: 0.8226 
F-statistic: 460 on 1 and 98 DF, p-value: « 2.2e-16 


fuel A T E 
Qi »Y 
方差 占 数据 总 方差 的 比重 。 将 这 个 公式 与 之 前 均 方 误差 的 公式 对 比 ， 我 们 会 发 现 ， 均 方 
误差 实际 上 是 R 方 公式 中 分 式 的 分 子 部 分 ， 分母 对 应 的 是 数据 中 的 总 方差 ， 因 此 整个 
分 式 代表 的 是 数据 中 未 被 模型 解释 的 方差 的 比重 。 
。 p 值 
在 的 模型 输出 结果 中 ， 模 型 参数 的 估计 是 在 Estimate 那 一 列 中 显示 。 要 想得到 每 一 
个 参数 估计 的 p 值 ， 我 们 要 计算 Pr(C> 册 。 对 值 的 解释 我 们 之 前 略 有 提 及 : 我 们 先 设 
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定 了 一 个 原 假设 (null hypothesis), 假设 参数 值 8 为 0。 对 于 每 一 个 8, p 值 代表 的 是 在 
原 假设 的 基础 之 上 我 们 可 以 得 到 观测 数据 的 概率 ， 也 就 是 在 原 假设 的 基础 上 得 到 相应 t 
统计 量 值 的 概率 。 这 也 就 意味 着 如 果 p 值 很 小 ， 那 么 在 相应 的 原 假设 下 得 到 观测 数据 的 
概率 就 很 小 ， 因 此 原 假设 很 可 能 是 不 正确 的 。 也 就 是 说 ，B6 应 该 显著 得 不 为 0。 





























。 交叉 验证 
还 有 另外 一 种 评估 模型 的 方法 ， 它 大 概要 遵循 这 样 的 程序 : 分 割 数 据 ，80% 用 作 训 练 
数据 集 ，20% 用 作 测 试 。 在 训练 数据 及 上 拟 合 模 型 并 估计 模型 的 参数 ， 并 在 测试 数据 
集 上 计算 出 模型 的 均 方 误差 .并 与 训练 数据 集 上 模型 的 均 方 误差 进行 比较 。 如 果 两 种 均 
方 误差 的 差异 很 小 ， 那 么 可 以 认为 模型 具有 不 错 的 扩展 性 ， 其 过 拟 合 的 风险 较 小 。 我 们 
也 建议 大 家 尝试 改变 一 下 训练 数据 集 的 大 小 ， 看 看 两 者 之 间 有 何 联合 变动 关系 ， 这 样 的 
模型 验证 过 程 叫 作 “ 交 又 验证 法 "， 如 图 3-6 所 示 。 














truth=degree 2, model = degree 1 truth=dgree 2, model = degree 25 
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train=degree 2 model = degree 2 

















口 train | 更 多 的 数据 量 有 助 于 提升 模型 的 效果 ， 
Otet | 但 前 提 是 模型 本 身 的 复杂 程度 适中 
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图 3-6: 在 训练 数据 集 和 测试 数据 集 上 比较 均 方 误差 。 该 图 截 自 Nando de Freitas 教授 的 课件 . 这 里 ， 
由 于 数据 是 从 一 个 一 直 的 分 布 模型 中 模拟 得 来 的 ， 因 此 真实 的 模型 误差 是 事先 知道 的 


其 他 类 型 的 模型 误差 测度 

均 方 误差 属于 “损失 函数 ”的 一 种 ， 在 线性 回归 中 均 方 误差 是 最 常 使 用 的 误差 指标 ， 它 能 
够 很 好 的 测度 模型 的 拟 合 效果 。 它 的 另外 一 项 优点 就 是 ， 如 果 假 设 误差 项 是 正 态 分 布 的 ， 
那么 模型 的 估计 可 以 完全 依赖 最 大 似 然 函 数 法 。 其 他 类 型 的 模型 误差 测度 还 有 很 多 ， 比 如 
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基于 绝对 值 误 差 。 人 们 甚至 可 以 根据 研究 的 目的 和 个 人 的 偏好 设计 和 使 用 相应 的 误差 测度 
指标 。 但 从 目前 来 看 ， 我 们 还 是 觉得 均 方 误差 是 个 不 错 的 选择 。 


增加 预测 变量 ”我们 刚才 讨论 的 是 最 简单 的 线性 回归 模型 : 一 个 自 变量 以 及 一 个 因 变 量 。 
在 此 模型 的 基础 之 上 ， 我 们 可 以 增加 预测 变量 ( 自 变量 ) 的 个 数 ， 从 而 得 到 多 元 回归 模型 


y = bot+Pxt+pPxrt+pbx3t+e 














之 前 的 模型 表达 式 在 这 里 也 同样 适用 ， 因 为 我 们 之 前 用 了 和 矩阵 表达 式 ， 增 加 一 个 变量 无 非 
是 在 矩阵 上 增加 一 列 而 已 ， 模 型 的 表达 形式 不 会 改变 。 还 以 刚才 的 例子 来 说 ， 对 于 预测 人 
们 在 网 站 上 所 花 去 的 时 间 ， Aie DUIOU 量 。 至 于 在 线性 回归 模型 
中 到 底 应 该 选用 哪些 变量 ， 我 们 将 在 7.4 节 详 细 介绍 。 对 于 上 面 的 具有 三 个 预测 变量 的 模 
型 ， 在 R 中 的 模型 拟 合 代码 为 : 














model <- lm(y ~ x_1 + x_2 + x_3) 
若 要 在 模型 中 添加 一 个 交叉 变动 项 也 很 简单 : 
model <- lm(y ~ x_1 + Xx_2 + x_3 + x_2*x_3) 


在 确定 到 底 使 用 哪些 预测 变量 时 ， 散 点 图 通常 是 一 个 很 好 的 工具 。 我 们 可 以 画 出 预测 变量 与 
每 一 个 自 变量 之 间 的 散 点 图 ， 以 及 自 变量 之 间 的 散 点 图 ， 已 找到 或 确认 可 能 有 用 的 预测 变量 
和 变量 之 间 的 交叉 变动 关系 。 基 于 预测 变量 的 每 一 个 值 ， 画 出 因 变 量 的 条 件 分 布 (y | x) 
直方 图 也 会 有 所 帮助 。 在 选 定 了 预测 变量 之 后 ， 同 简单 线性 回归 模型 一 样 ， 我 们 仍然 可 以 
使 用 RR、p 值 和 交叉 验证 的 方法 评价 模型 的 质量 。 






































变换 刚才 的 模型 假设 了 y 与 x 之 间 的 线性 关系 ， 然 而 为 什么 我 们 不 能 使 用 x 的 高 阶 项 呢 ， 
这 样 我 们 就 可 以 得 到 一 个 类 似 下 式 的 多 项 式 回 归 模 型 . 


y = fot x+ bax F bx? 








我 们 知道 ， 多 项 式 回 归 模 型 不 是 线性 回归 模型 。 但 是 如 果 把 x 的 高 阶 项 看 成 新 的 变量 ， 上 
式 的 表达 形式 仍然 保持 着 “线性 ”的 模样 。 也 就 是 说 ， 我 们 可 以 把 多 项 式 回 归 模 型 看 成 线 
性 模型 ， 前 提 是 把 变量 做 一 下 适当 的 变换 。 比 如 ， 我 们 可 以 假设 z = x). w = x). XE 
面 的 模型 就 是 一 个 基于 三 个 预测 变量 (x, z, w) 的 线性 回归 模型 了 。 这 样 的 变量 变换 在 线性 
回归 中 经 常会 用 到 ， 其 他 的 变换 方法 还 包括 取 对 数 、 离 散 化 、 二 元 化 等 。 


但 是 ， 是 否 对 一 个 变量 进行 变换 是 建立 在 事实 基础 之 上 的 ， 比 如 说 在 预测 人 们 在 网 上 花费 
的 时 间 这 一 问题 上 ， 其 中 一 个 预测 变量 就 是 好 友 的 个 数 。 通 过 散 点 图 ， 如 果 我 们 发 现 好 友 
的 个 数 与 花费 时 间 的 关系 呈现 明显 的 曲线 特征 ， 而 非 直 线 ， 那 么 我 们 就 应 该 考虑 对 “好 友 
的 个 数 ” 这 个 变量 做 适当 的 变换 ， 以 满足 线性 回归 模型 的 “线性 ”要 求 。 


















































我 们 现在 所 讨论 的 各 种 有 关 模 型 形式 和 变量 变换 的 问题 ， 是 建 模 工作 者 必须 要 直面 的 一 个 
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最 重要 的 挑战 之 一 : 那 就 是 你 永远 不 知道 真理 是 什么 。 很 可 能 真实 的 模型 是 二 次 型 的 ， 而 
你 最 后 还 是 使 用 了 线性 模型 。 有 许多 的 工具 可 以 帮助 我 们 尽量 客观 地 确定 模型 的 形式 ， 但 
你 永远 不 能 100% 地 肯定 你 的 模型 是 正确 的 。 数 据 量 越 多 往往 对 于 建 模 越 有 帮助 ， 我 们 可 
以 无 限 地 接近 真理 ， 但 永远 无 法 到 达 那 里 。 


回顾 一 下 
现在 让 我 们 回顾 一 下 我 们 在 构建 模型 和 拟 合 模型 的 时 候 做 过 的 诸多 假设 : 


。 线性 假设 ， 

。 误差 项 是 正 态 分 布 的 ， 并 且 均 值 为 0; 
。 误差 项 是 相互 独立 的 ， 

。 误差 项 具有 恒定 的 条 件 方差 ， 

。 预测 变量 都 是 有 用 的 。 








我 们 应 用 线性 回归 模型 ， 主 要 基于 以 下 两 个 目的 : 


。 用 作 预 测 ， 在 知道 自 变量 值 的 情况 下 ， 预 测 因 变 量 的 可 能 值 ， 
。 用 作 变 量 关 系 的 解释 ， 比 如 确定 两 个 变量 之 间 可 能 的 相关 关系 或 者 联合 变动 关系 等 。 


练习 
我 们 可 以 在 R 中 用 模拟 的 方法 帮助 理解 和 探索 这 些 新 概念 。 模 拟 的 好 处 在 于 ， 你 永远 知 
道 数据 是 如 何 产 生 的， 因此 也 就 知道 真实 的 模型 是 什么 样子 。 换 句 话说， 你 就 是 “上 帝 ， 
真理 是 掌握 在 你 自己 手中 的 。 因 此 ， 你 可 以 评判 一 个 模型 的 效果 到 底 好 还 是 不 好 。 


在 模拟 的 数据 上 确认 完 模 型 的 有 效 性 之 后 ， 就 可 以 把 目的 转移 到 真实 的 数据 上 了 。 接 下 来 
我 们 会 展示 如 何 模拟 出 一 个 数据 集 ， 以 及 如 何 利用 模拟 数据 集 帮 助 我 们 探索 和 理解 模型 ; 


# 模拟 一 个 虚拟 数据 集 
X 1 <- rnorm(1000,5,7) # 从 一 个 均值 为 5， 标准 差 为 7 
# 的 正 态 分 布 中 随机 模拟 1600 个 值 
hist(x 1, col-"grey") s mjiH p(x) 
true error <- rnorm(1000,0,2) 
true beta 0 «- 1.1 
true beta 1 «- -8.2 
y «- true beta 0 + true beta 1*x 1 + true error 
hist(y) # 画 出 p(y) 
plot(x 1,y, pch=20,col="red") # miih p(x,y) 




































































(1) 在 模拟 数据 上 拟 合 线性 回归 模型 ， 比 较 参数 6 的 估计 值 与 真实 值 的 差距 。 

D 模拟 一 个 新 的 服从 伽 马 分 布 的 变量 x,， 并 构建 一 个 新 的 y 变量 : y = ox, 十 Xp。 接 下 来 可 
以 做 很 多 事 ， 我 们 可 以 拟 合 一 个 只 有 x, 或 者 只 及 的 模型 ， 再 拟 合 一 个 包含 两 个 变量 
的 模型 。 随 后 ， 我 们 可 以 在 不 同样 本 量 大 小 的 数据 集 上 拟 合 模型 ， 并 可 以 通过 交叉 验 
证 的 方法 看 模型 的 均 方 误差 在 训练 数据 集 和 测试 数据 集 上 的 表现 。 
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(3) 在 模型 中 加 入 新 的 预测 变量 z, z = x?。 比 较 模 型 在 加 入 该 变量 前 后 的 拟 合 效果 有 何不 
同 。 通 过 交叉 验证 和 改变 样本 量 的 方式 ， 比 较 模 型 在 训练 数据 集 和 测试 数据 集 上 的 不 
同 表 现 。 

(4) 还 有 很 多 东西 可 以 玩 : (2) 改变 真实 的 参数 值 ，(b) 改变 模型 误差 项 的 分 布 类 型 ，(c) 在 
模型 中 加 入 更 多 具有 不 同 分 布 类 型 的 预测 变量 。( 在 R 中 ，rnorm() 函数 的 作用 是 从 某 
个 正 态 分 布 中 生成 一 些 随机 值 。 顾 名 思 义 ，rbinom() 函数 是 从 二 项 分 布 中 产生 随机 值 。 
可 供 尝试 的 分 布 类 型 非常 多 ， 大 家 可 以 多 尝试 几 种 。) 

(5) 画 出 所 有 变量 之 间 关系 的 散 点 图 ， 以 及 单个 变量 的 直方 图 。 








3.2.2 kk 近邻 模型 (kk-NN) 
Kk 近邻 模型 是 一 个 分 类 算法 ， 在 给 定 一 个 已 经 做 好 分 类 的 数据 集 之 后 ,近邻 可 以 学 习 其 中 
的 分 类 信息 ， 并 可 以 自动 地 给 未 来 没有 分 类 的 数据 分 好 类 。 


分 类 是 建 模 的 基本 问题 之 一 ， 我 们 可 能 想 把 数据 科学 家 分 成 两 类 :“ 性 感 类 ”和 “不 性 感 
K”, 或 者 把 人 分 成 两 类 :“ 高 信用 度 ” 和 “ 低 信 用 度 ”; 酒店 则 可 能 按 星 级 分 成 5 类 :“ 五 
ER “四 星 级 "* “三 星 级 * “二星 级 ”和 “一 星 级 ”。 对 于 酒店 ， 也 许 我 们 可 以 多 加 一 类 ， 
将 那些 非常 差 ， 连 “一 星 级 ”都 不 够 格 的 酒店 分 类 为 “零星 级 。 对 于 患者 ， 我 们 可 能 希 
望 将 他 们 分 为 “高 患 癌 风 险 病 人 ”和 “ 低 患 癌 风 险 病人 ”两 类 。 分 类 的 任务 在 我 们 日 常生 
活 中 可 以 说 无 处 不 见 。 








现在 让 我 们 停 下 来 思考 一 下 ， 对 于 分 类 问题 我 们 可 以 应 用 线性 回归 模型 吗 ? 

答案 是 : 不 一 定 ， 也 不 是 没有 可 能 。 从 模型 形式 上 来 说 ， 线 性 模型 的 输出 值 是 连续 性 的 实 
数值 ， 而 分 类 模型 的 任务 要 求 是 得 到 分 类 型 的 模型 输出 结果 。 从 这 一 点 上 来 说 ， 线 性 模型 
是 不 适用 于 分 类 问题 的 。 




















但 是 ， 如 果 我 们 换 一 个 思路 ， 问 题 还 是 可 以 解决 的 。 这 里 要 用 到 “ 国 值 ”的 概念 。 也 就 是 
将 连续 性 数值 离散 化 。 比 如 ， 如 果 我 们 想 根据 人 们 的 年 纪 和 实际 收入 预测 他 的 信用 值 ， 那 
么 我 们 可 以 选取 700 作为 国 值 ， 如 果 其 信用 预测 值 高 于 700， 则 将 其 列 为 “高 信用 度 ” 类 。 
如 果 其 信用 预测 值 低 于 700， 则 将 其 归 类 为 “ 低 信 用 度 ” 类 。 这 里 我 们 用 一 个 姜 值 将 一 个 
连续 性 变量 转换 成 了 一 个 二 元 变量 ， 我 们 当然 可 以 使 用 更 多 的 国 值 将 预测 性 变量 离散 化 成 
具有 更 多 类 别 的 变量 。 比 如 ， 可 以 用 4 个 阀 值 将 信用 度 分 成 5 个 类 别 : 极 低 信用 度 、 低 信 
用 度 、 中 级 信用 度 、 高 信用 度 和 极 高 信用 度 。 


然而 ， 并 不 是 所 有 的 变量 都 像 信 用 度 一 样 ， 可 以 被 国 值 分 为 几 个 严格 不 重 琶 的 类 别 。 有 些 
类 别 可 能 是 模棱两可 的 ， 比 如 一 个 人 的 政治 倾向 ， 他 可 能 是 “民主 党 *"， 也 可 能 是 “共和 
党“， 或 者 可 能 是 政治 中 立 的 。 这 样 的 具有 概率 特性 的 分 类 变量 ， 我 们 该 如 何 分 析 呢 ? 


大 近邻 的 主要 想法 是 ， 根 据 属 性 值 的 相似 度 找到 某 个 对 象 的 相似 对 象 们 ， 并 让 其 相似 对 象 
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们 一 起 “投票 ”决定 该 对 象 到 底 应 该 属于 哪 一 类 。 如 果 有 某 两 个 或 者 更 多 个 的 类 别 投票 数 
相同 ， 那 么 就 从 这 些 类 别 中 随机 挑选 一 个 作为 该 对 象 的 类 别 值 。 


让 我 们 举 一 个 例子 。 假 设 一 个 人 会 对 自己 看 过 的 每 部 电影 都 打上 “好 看 ”或 者 “不 好 看 ” 
的 标签 ， 现 在 根据 这 些 历史 标签 信息 ， 如 果 给 定 一 部 新 的 电影 叫 作 《 狂 野 的 数据 》 我 们 
可 以 用 近邻 的 方法 预测 此 人 是 否 会 觉得 这 部 电影 好 看 。 方 法 首先 是 要 确定 电影 的 属性 
值 ， 包 括 电 影 的 长 度 、 风 格 、 性 爱 场景 数 、 奥 斯 卡 最 佳 演员 的 个 数 以 及 电影 的 拍摄 预算 
等 。 根 据 这 些 属性 ， 我 们 可 以 找到 与 《 狂 野 的 数据 》 最 相似 的 部 电影 ， 并 记录 下 这 上 部 
影 的 标签 信息 。 如 果 这 些 电影 总 体 来 看 包括 更 多 的 是 “好 看 ”的 标签 (这 个 过 程 ， 叫 作 
“投票 ”)， 那 么 我 们 也 自然 会 预测 《 狂 野 的 数据 》 这 部 电影 会 得 到 此 人 的 青睐 。 

















上 近邻 方法 需要 解决 两 个 核心 问题 : 一 是 如 何 根 据 属 性 定义 个 体 之 间 的 相似 性 或 者 紧密 程 
度 。 一 旦 有 了 明确 的 定义 ， 我们 就 可 以 把 某 个 带 预测 个 体 的 “近邻 ” 们 找 出 来 ， 让 它们 投 
票 决定 该 个 体 的 类 别 属性 。 

这 就 自然 引申 出 了 第 二 个 问题 : 到 底 如 何 才 能 确定 一 个 最 优 的 磊 值 呢 ? 对 于 数据 科学 家 来 
Wi. 大 值 的 确定 十 分 关键 。 接 下 来 我 们 会 详细 讨论 解决 方法 。 

首先 让 我 们 看 一 个 现实 生活 中 的 例子 。 

信用 评分 实例 

设想 手边 有 一 个 关于 人 们 信用 评分 的 数据 集 ， 包 含 的 变量 有 人 们 的 年 龄 、 收 入 以 及 信用 
评分 的 等 级 。 信 用 等 级 变量 只 包含 两 个 类 别 ， 分 别 是 “高 信用 度 ”(high) 和 “ 低 信用 度 ” 
(low)。 给 定 这 个 数据 ， 我 们 想 据 此 预测 一 个 新 人 的 信用 等 级 。 





























下 面 是 这 个 数据 集 的 前 几 行 ， 收 入 在 第 二 列 ， 其 单位 是 千 美元 : 
age income credit 
69 3 low 
66 57 low 
49 79 low 
49 17 low 
58 26 high 
44 71 high 


图 3-7 是 一 个 特别 的 散 点 图 ， 横 轴 是 年 龄 变量 ， 总 重 是 收入 变量 ， 实 心 点 代表 高 信用 度 ， 
虚心 点 代表 低 信用 度 。 


现在 有 一 个 预测 问题 : 根据 刚才 的 数据 集 的 信息 ， 如 有 果 告 诉 你 现在 有 位 新 人 ， 他 的 年 龄 是 
57 岁 ， 收 入 是 37 000 美元 ， 那 么 他 的 信用 等 级 应 该 是 什么 呢 ? 或 者 说 ， 他 的 信用 等 级 更 
可 能 是 高 还 是 低 呢 ? 如 图 3-8 所 示 ， 问 号 的 位 置 代表 新 人 的 两 个 属性 〈 年 龄 和 收入 ) 的 位 
置 ， 根 据 他 周边 的 标签 信息 ,大 近邻 方法 可 以 告诉 我 们 他 的 信用 等 级 更 应 该 是 高 还 是 低 。 
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3-8 : 这 个 新 人 的 信用 等 级 
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下 面 我 们 就 列 出 近邻 方法 工作 的 详细 步 又 。 











(1) 首先 确定 相似 性 定义 ， 这 通常 也 叫 作 “距离 ”。 

(2) 将 数据 分 制 成 训练 数据 和 测试 数据 集 。 

(3) 选择 一 个 模型 评价 标准 。( 对 于 分 类 问题 来 说 ， 误 分 率 是 个 不 错 的 选择 ， 我 们 会 在 稍 后 
章 刷 详细 讨论 。) 

(4) 选择 不 同 的 上 值 ， 并 应 用 大 近邻 模型 ， 看 哪个 模型 的 效果 最 好 。 

(5) 基于 选 定 的 模型 评价 标准 ， 选 出 最 优 的 上 值 。 

(6) 选 定之 后 ， 就 可 以 做 样本 外 测试 了 。 我 们 刚才 提 到 的 一 个 新 人 就 是 一 个 样本 外 的 
例子 。 











相似 性 /距离 测度 

相似 性 测度 的 选择 在 很 大 程度 上 要 取决 于 问题 的 背景 和 数据 本 身 的 特征 。 举 个 例子 来 说 ， 
对 于 社交 网 络 数据 来 说 ， 如 何 衡量 两 人 之 间 的 “相似 性 ” 呢 ? 一 个 通常 的 做 法 是 用 两 人 之 
间 共 同好 友 的 个 数 来 衡量 。 而 这 样 的 测度 方式 放 在 别 的 数据 上 可 能 就 不 太 合 适 了 。 








对 于 我 们 刚才 讨论 的 问题 来 说 ， 如 果 变 量 取 值 大 致 都 在 一 个 水 平 上 ， 那 么 二 维 平面 上 的 欧 
几 里 得 距离 是 个 不 错 的 选择 。 当 然 ， 我 们 很 难 假设 所 有 变量 的 取 值 都 在 一 个 水 平 上 ， 很 多 
时 候 ， 变 量 的 取 值 范 围 会 差别 很 大 。 


























注意 : 前 方 有 坑 ! 


对 于 建 模 来 说 ， 变 量 的 取 值 水 平 是 个 很 重要 的 问题 ， 如 果 处 理 得 不 好 ， 很 可 能 会 影响 
整个 模型 的 效果 。 


让 我 们 来 看 一 个 例子 : 年 龄 通常 的 取 值 单位 是 年 ， 收 入 是 美元 ， 而 信用 评分 的 取 值 往 
往 是 由 权威 部 门 规定 的 一 一 就 像 SAT 分 数 一 样 。 因 此 一 个 人 的 观测 数据 可 以 用 一 个 三 
元 向 量 表示 ， 如 (25, 54 000, 700) 和 (35, 76 000, 730)。 因为 收入 的 取 值 水 平 最 高 ， 
因此 在 计算 距离 的 时 候 ， 相 似 性 的 测度 很 可 能 会 被 收入 这 一 个 变量 所 主导 ， 而 其 他 两 
个 变量 很 难 在 该 测度 中 体现 出 来 。 这 就 是 变量 取 值 水 平 的 问题 ， 我 们 总 是 希望 变量 的 
取 值 都 大 致 在 同一 个 水 平 上 。 


然而 ， 如 果 收 入 是 用 “ 千 美 元 ”来 度量 ， 那 么 相应 的 三 元 变量 会 变 为 (25, 54, 700) 和 
(35, 76, 730) 。 如 此 一 变 ， 三 个 变量 的 取 值 就 大 概 在 同一 水 平 上 了 。 

总 而 言 之 ， 变 量 的 计量 方式 以 及 变量 之 间距 离 的 定义 方式 ， 在 统计 学 中 我 们 叫 作 “ 先 
验 信 息 ”， 他 们 都 可 能 会 影响 到 模型 最 终 的 效果 。 














欧 几 里 得 距离 又 叫 欧 氏 距离 ， 对 于 在 实数 轴 上 取 值 以 及 能 够 在 平面 或 者 多 维 空间 中 描绘 出 
来 的 变量 来 说 ， 它 是 一 个 不 错 的 距离 亮度 。 











。 IZA (Cosine Similarity) 
余弦 度 同 样 可 以 用 于 亮度 两 个 实数 向 量 x 和 y 之 间 的 相似 程度 ， 而 且 余弦 度 是 一 个 介 于 
-1 和 1 之 间 的 数 。 如 果 取 值 为 -1 则 代表 完全 不 同 ，! 代表 完全 一 样 ， 而 0 则 代表 两 个 
向 量 之 间 相 互 独立 。 回 顾 一 下 余弦 度 的 定义 ;cos(X,7) = 一 一。 





























。 Jaccard 距 离 或 相似 度 
Jaccard 距离 通常 用 作 衡量 两 个 集合 之 间 的 相似 度 一 一 比如 说 Cathy 的 朋友 集合 表示 为 
A = (Kahn, Mark, Laura, =}, Rachel 的 朋友 集合 表示 为 B = (Mladen, Kahn, Mark, +}, 


那么 这 两 个 朋友 集合 的 Jaccard 相似 度 为 J(A,B) = yur | n 





e Mahalanobis3E 3j 
也 称 作 马 氏 距离 ， 同 样 适用 于 两 个 实数 向 量 。 相 比 于 欧 氏 距离 ， 马 氏 距 离 考 虑 了 两 
个 变量 之 间 的 相关 关系 ， 并 且 不 用 担心 变量 取 值 水 平 的 问题 。 马 氏 距 离 的 定义 为 ; 
d, JG ys (-y. Erb sms; 2p. 





。 Hamming 距离 
Hamming 距离 主要 用 来 衡量 两 个 字符 串 ， 字 组 或 者 具有 相同 长 度 的 DNA 序列 之 间 的 相 
似 程度 。 比 如 ， 单 词 olive 和 ocean 的 Hammning 距离 为 4， 因 为 除了 第 一 个 字母 o 相 
同 之 外 ， 这 两 个 单词 包含 的 其 他 四 个 字母 都 不 相同 。 同 理 ， 单 词 shoe fI hose 之 间 的 
Hamming 距离 是 3， 这 是 因为 除了 最 后 一 个 字母 e 相同 之 外 ， 其 他 三 个 字母 在 对 应 位 置 
上 均 不 相同 。 因 此 ，Hamming 距离 的 计算 方式 其 实 十 分 简单 ， 按 照 位 置 顺序 的 比 对 两 
个 单词 字母 之 间 是 否 相 同 ， 每 个 位 置 上 字母 的 不 同 ， 相 应 Hamming 距离 的 值 都 增加 1。 
































e Manhattan 距 离 
Manhattan 距离 (曼哈顿 距离 ) 也 用 来 测度 两 个 上 维 实数 向 量 之 间 的 距离 。 之 所 以 叫 作 
Manhattan 距离 ， 是 因为 要 把 这 个 距离 想象 成 城市 中 两 点 之 间 ， 如 果 用 计程车 行走 的 路 
线 来 算 的 话 ， 应 该 为 多 长 。( 在 城市 中 行走 或 者 行车 需要 遵循 一 定 的 路 线 规定 ， 警 如 大 
型 建筑 要 绕 行 ， 不 能 穿 墙 而 过 。) SPHERE OUS qi = 》 ife 


向 量 中 元 素 的 位 置 。 i 


除了 上 述 的 这 些 距 离 测 度 指标 ， 当 然 还 有 很 多 别 的 选择 。 至 于 到 底 选 择 什么 样 的 指标 ， 这 
要 取决 于 研究 的 问题 和 数据 本 身 。 当 你 觉得 困惑 的 时 候 ， 不 妨 先 到 谷歌 上 搜索 一 下 ， 看 看 
别人 是 怎么 用 的 。 














Xi — yi 











有 一 种 情形 会 使 得 问题 变 得 更 加 复杂 ， 那 就 是 当 数 据 有 很 多 不 同类 型 变量 的 时 候 。 比 如 
说 ， 在 电影 评分 数据 库 中 ， 有 些 变量 是 数值 型 的 (比如 电影 预算 和 演员 数量 等 )， 而 有 些 
是 分 类 型 的 变量 (比如 电影 的 风格 )。 在 选择 距离 测度 的 时 候 ， 我 们 还 要 根据 变量 类 型 的 
不 同 而 有 所 变通 。 但 无 论 如 何 ， 距 离 的 测度 选择 都 具有 相当 的 自由 和 主观 性 。 
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我 们 甚至 可 以 自己 定 于 距离 的 测度 方式 ， 比 如 对 于 电影 评分 数据 来 说 ， 我 们 可 以 定义 ， 如 
果 两 个 电影 的 风格 相同 ， 那 么 它们 之 间 的 距离 值 增 加 为 0， 但 是 如 果 风 格 不 同 ， 则 距离 值 
增加 为 10。 之 所 以 选择 10 这 个 数据 作为 单位 增加 值 。 至 于 到 底 选 择 10，50 还 是 更 大 的 值 
作为 单位 增加 值 要 取决 于 其 他 变量 的 取 值 水 平 而 定 。 如 果 其 他 变量 的 取 值 水 平 较 大 ， 那 么 
很 可 能 50 会 更 好 一 点 。 


无 论 做 何 选择 ， 我 们 总 是 希望 这 个 选择 在 可 能 的 选择 中 是 最 优 的 ， 虽 然 很 难 做 的 ， 但 也 还 
是 值得 一 试 。 从 模型 验证 的 角度 来 说 ， 我 们 尝试 很 多 的 选择 ， 并 通过 模型 验证 的 方式 确认 
哪 一 个 会 是 最 优 的 。 在 刚才 的 选择 中 ，10 相对 于 近邻 算法 本 身 是 第 二 个 需要 确定 的 数值 
(是 第 一 个 ,也 是 最 重要 的 )， 我 们 可 以 把 它 作为 模型 的 参数 最 优化 ， 也 可 以 作为 建 模 之 
前 已 经 掌握 的 先 验 信息 。 至 于 到 底 应 该 怎么 看 待 它 ， 也 同样 取决 于 这 个 问题 本 身 ， 研 究 人 
员 自 己 看 待 这 个 问题 的 角度 以 及 数据 本 身 的 特点 等 。 


训练 和 测试 数据 集 

对 于 所 有 的 机 器 学 习 算 法 来 说 ， 将 数据 集 分 成 训练 数据 及 和 测试 数据 集 是 最 为 通用 的 做 
法 。 数 据 集 用 来 “训练 ”模型 ， 而 测试 数据 用 来 独立 的 测试 “训练 好 ”的 模型 在 实际 问题 
上 的 真实 表现 。 





























对 于 近邻 模型 来 说 ， 训 练 阶段 的 数据 是 包含 因 变 量 (信用 等 级 ) 的 标签 值 的 。 在 模型 测 
试 阶 段 ， 我 们 假装 不 知道 因 变 量 的 真实 标签 值 ， 并 用 在 训练 阶段 得 到 的 近邻 模型 预测 这 
些 标签 值 。 

















要 想 实现 测试 的 目的 ， 我 们 必须 从 原始 数据 中 保留 一 些 数据 出 来 ， 这 些 数据 不 用 于 模型 训 
练 而 只 用 于 测试 。 通 常 来 说 ， 我 们 会 随机 抽取 20% 的 数据 出 来 作为 测试 用 数据 集 。 


以 下 的 R 代码 可 供 参 考 : 





> head(data) 
age income credit 


1 69 3 low 
2 66 57 low 
3 49 79 low 
4 49 17 low 
5 58 26 high 
6 44 71 high 


n.points «- 1000 # 数据 集中 的 行 数 


sampling.rate «- 0.8 


# 我 们 需要 测试 数据 集中 的 行 数 去 计算 误 分 率 


num.test.set.labels «- n.points * (1 - sampling.rate) 


# 在 所 有 的 数据 行 中 ， 随 机 的 选取 一 部 分 用 作 训 练 数据 集 
training <- sample(1:n.points, sampling.rate * n.points, 
replace-FALSE) 











train <- subset(data[training, ], select = c(Age, Income)) 
# 这 些 行 数 就 代表 训练 数据 集 的 规模 

# 剩 下 没有 被 随机 选中 的 数据 行 就 代表 了 测试 数据 集 

testing <- setdiff(1:n.points, training) 

# 没有 被 选中 的 行 数 就 代表 了 测试 数据 集 的 规模 


test <- subset(data[testing, ], select = c(Age, Income)) 





cl <- dataSCredit[training] 
# 这 些 是 训练 数据 集 的 标签 值 
true.labels <- data$Credit[testing] 
# 测试 数据 集 的 标签 值 和 暂且 保留 
选择 一 个 模型 评价 标准 
到 底 应 该 如 何 评判 你 所 选用 的 模型 (及 其 参数 值 ) 的 效果 呢 ? 


就 像 我 们 之 前 反复 说 的 ， 模 型 的 评价 是 非常 灵活 和 主观 的 ， 并 没有 普 适 的 标准 。 对 于 某 个 
实际 问题 ， 你 可 能 觉得 高 误 分 率 的 严重 性 要 大 于 其 他 的 误差 测度 ， 或 者 你 会 觉得 伪 阴 性 的 
严重 性 要 大 于 伪 阳 性 。 因 此 ， 在 确定 一 个 模型 的 评价 标准 时 ， 你 可 能 要 和 某 个 问题 领域 的 
专家 好 好 交流 一 得。 


举例 来 说 ， 如 果 分 类 模型 的 对 象 是 人 们 是 否 患 癌 ， 那 么 模型 的 伪 阴 性 当然 越 小 越 好 ( 伪 阴 
性 指 的 是 某 人 实际 患 癌 ,但 是 模型 却 告诉 我 们 他 没有 患 癌 )。 在 确定 合理 的 模型 评价 标准 
之 前 ， 我 们 最 好 与 癌症 领域 的 专家 医生 做 好 交流 沟通 ， 以 更 深入 地 了 解 手中 数据 所 涉及 的 
实际 问题 背景 。 














但 是 对 于 伪 阴 性 ， 有 一 个 极端 的 问题 是 : 如 果 你 想 确 保 伪 阴 性 为 0， 你 可 以 把 所 有 的 病人 
都 分 类 为 癌症 患者 。 这 当然 也 不 合理 ， 因 为 相应 的 伪 阳 性 率 会 增加 。 在 分 类 问题 中 ， 这 叫 
作 敏 感度 (sensitivity) 与 “特异 度 ”(specificity) 的 权衡 。 敏 感度 指 的 是 所 有 的 患 癌 病 人 
实际 被 诊断 为 患 癌 的 概率 ， 而 特异 度 指 的 是 未 患 癌 的 病人 被 诊断 为 末 患 癌 的 概率 。 理 想 的 
模型 需要 具备 高 敏感 度 和 高 特异 性 。 


|] “关于 敏感 度 和 特异 度 的 其 他 说 法 
p^ 。 敏 感度 又 叫 作 “ 真 阳性 率 ”(true positive rate) 或 者 召回 率 (recall)。 来 自 不 
Li 


”同学 术 研究 领域 的 研究 人 员 会 使 用 不 同 的 术语 ， 但 是 它们 都 代表 的 一 个 意 
思 。 特 异 度 也 叫 “ 真 阴性 率 ”(true negative rate), 既然 有 “ 真 阳性 率 ” 和 
“ 真 阴性 率 ”， 当 然 也 有 “ 伪 阳 性 率 ” 和 “ 假 阴 性 率 ”， 但 是 后 两 个 术语 没有 
其 他 的 表述 形式 。 

















我 们 也 可 以 用 “精确 度 ”(precision) 作为 模型 的 评价 标准 ， 关 于 精确 度 我 们 会 在 第 5 章 详 
细 介 绍 。 之 所 以 有 些 术语 在 不 同 的 领域 有 不 同 的 表述 形式 ， 是 因为 关于 分 类 的 问题 的 研究 
在 统计 学 ， 机 器 学 习 等 领域 是 独自 发 展 的 ， 针 对 同样 的 问题 也 就 自然 的 出 现 了 一 些 不 同 表 
述 。 比 如 说 , “精确 度 ” 和 “召回 率 ” 这 样 的 术语 就 来 自 于 信息 检索 领域 ,但 要 注意 的 是 ， 
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“精确 度 ” 不 同 于 “特异 度 ”。 

还 有 一 种 模型 评价 标准 叫 作 “准确 度 ”， 指 的 是 所 有 被 正确 分 类 的 标签 数 占 总 标签 数 的 比例 。 
因此 ， 误 分 率 =1- 准确 度 。 最 小 化 模型 的 “ 误 分 率 ” 就 等 同 于 最 大 化 模型 的 “准确 度 。 
小 结 

在 介绍 完 距离 的 定义 和 模型 的 评价 标准 问题 之 后 ， 模 型 的 前 期 准备 工作 就 基本 完成 了 。 

对 于 测试 数据 集中 的 每 个 人 ， 你 都 先 假 装 不 知道 他 们 的 真实 信用 等 级 。 用 大 近邻 方法 找到 
与 每 个 人 最 相似 的 三 个 人 的 信用 等 级 ， 并 用 “投票 ”的 方式 确认 此 人 的 信用 等 级 。 在 预测 
完 测试 数据 集中 所 有 人 的 信用 等 级 之 后 ， 与 他 们 真实 的 信用 等 级 做 比较 ， 并 计算 出 测试 数 
据 集 上 的 误 分 率 ， 它 就 代表 该 近邻 模型 的 实际 预测 效果 。 在 R 中 ， 只 需要 一 行 代码 就 可 
以 完成 这 些 工作 : 


knn (train, test, cl, k=3) 


k 的 选择 

我 们 已 经 说 过 , 对 于 k 近 邻 模 型 来 说 是 最 为 重要 的 参数 ， 至 于 如 何 选择 一 个 合适 的 (或 
者 最 优 的 ) 的 k 值 ， 这 要 求 你 对 数据 本 身 的 背景 有 深刻 的 理解 ， 并 且 还 需要 通过 不 断 地 党 
试 (基于 选 定 的 模型 评价 标准 ) 以 确定 一 个 合适 的 大 值 。 












































: 二 元 分 类 
pA 刚才 的 信用 等 级 分 类 是 一 个 二 元 分 类 问题 ， 因 为 待 分 类 的 变量 “信用 等 级 ” 
和 全， 只 有 两 个 类 别 “ 高 信用 度 ” 和 “ 低 信用 度 "。 对 于 二 元 分 类 情况 ， 我 们 建议 
选择 一 个 奇数 产值。 原因 是 ， 奇 数值 在 “投票 ”的 过 程 中 总 会 出 现 一 个 
“多 数 ” 类 。 当 然 ， 你 也 可 以 选择 一 个 偶数 上 值 ， 如 果 需 要 “投票 ”出 现 平 
手 的 情况 ， 只 需要 随机 挑选 一 个 类 即 可 。 





























# 我 们 将 迄 代 20 个 大 值 ， 并 且 看 哪个 大 值 对 应 的 误 分 率 最 小 
for (k in 1:20) ( 
print(k) 
predicted.labels «- knn(train, test, cl, k) 
# 这 里 使 用 了 R 中 的 knn() 函数 
num.incorrect.labels <- sum(predicted.labels != true.labels) 
misclassification.rate «- num.incorrect.labels / 
num.test.set.labels 
print(misclassfication.rate) 


} 
而 是 上 面 一 段 代码 “的 输出 值 : 

















zi 











k _ misclassification.rate 
1, -0:28 
2, 0.315 











ik 4: 该 段 代码 尝试 了 20 个 不 同 的 x 值 ， 并 在 测试 数据 集 上 评价 每 一 个 k 值 的 实际 预测 效果 。 
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3, 0.26 
4, 0.255 
5, 0.23 
6, 60.26 
7, 0.25 
8, 0.25 
9, 39:235 
10, 0.24 





从 测试 的 输出 结果 来 看 ，k = 5 是 最 优 的 选择 ， 因 为 其 对 应 的 误 分 率 最 低 。 把 上 = 5 的 下 近 
邻 模型 应 用 到 之 前 提 到 的 新 人 上 ， 该 人 年 龄 是 537 岁 ， 收 入 为 37 000 美元 。 在 R 中 ， 敲 入 
以 下 代码 : 


> test «- c(57, 37) 
> knn(train, test, cl, k = 5) 
[1] low 


kik 


近邻 模型 告诉 我 们 ， 应 用 丰 = $S， 该 人 的 信用 度 为 “low”( 低 信用 度 )。 


ow 


wh) k 近 邻 模 型 中 的 测试 数据 集 
仿 4 ， 我 们 刚才 使 用 了 两 次 knn() 函数 ， 虽 然 我 们 都 称 为 “测试 ”但 是 意义 却 不 
t 


"I 


” 同 。 第 一 种 意义 上 的 “测试 "， 主 要 是 用 来 衡量 模型 效果 的 。 因 为 在 第 一 个 
测试 集 上 ， 我 们 其 实 是 知道 真实 的 标签 值 的 ， 我 们 只 是 在 把 测试 数据 集 指 定 
给 R 的 时 候 假装 不 知道 而 已 。 而 第 二 种 测试 数据 集 (比如 那个 新 人 的 数据 ) 
是 真正 意思 上 的 “样本 外 测试 集 "， 也 就 是 说 ， 我 们 真 的 不 知道 该 人 的 信用 
等 级 如 何 ， 而 想 利 用 近邻 模型 预测 得 知 。 可 以 看 到 ， 对 于 RR 来 说 ， 这 两 种 
意义 上 的 “测试 ”从 代码 形式 上 来 看 是 完全 一 样 的 ，R 并 不 知道 你 所 要 做 的 
“测试 ”是 何 种 意思 上 的 测试 。 


























模型 有 哪些 假设 
上 一 章 我 们 讨论 了 模型 和 模型 的 假设 问题 。 那 么 对 于 大 近邻 模型 来 说 ， 有 哪些 模型 假设 
呢 ? 


大 近邻 从 模型 形式 上 来 看 是 一 个 非 参数 (nonparamatric) 的 方法 ， 也 就 是 说 ， 对 于 数据 的 
生成 过 程 和 数据 的 分 布 没 有 任何 假设 ， 也 没有 任何 需要 估计 的 参数 。 但 即便 作为 一 个 非 参 
数 的 方法 ， 还 是 有 一 些 隐 含 的 假设 ， 如 下 。 





在 数据 的 特征 空间 中 可 以 定义 某 种 意义 的 “距离 ”。 

训练 数据 集中 的 因 变 量 已 经 做 好 标签 。 

值 的 选择 ， 需 要 你 来 决定 。 

我 们 选择 和 观 济 的 特征 变量 对 于 预测 因 变量 的 标签 值 有 所 帮助 ， 也 就 是 说 ， 这 些 特征 变 
量 与 因 变 量 是 有 联系 的 。 但 很 可 能 某 些 特 征 变量 与 因 变量 是 没有 联系 的 。 至 于 这 些 特征 
变量 的 预测 效果 到 底 如 何 ， 后 期 的 模型 评价 自然 会 告诉 我 们 。 在 建 模 的 过 程 中 ， 基 于 模 
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。 这 些 都 叫 作 
避免 过 拟 合 的 





型 评价 的 反馈 ， 你 可 能 会 考虑 添加 某 些 特征 变量 ， 或 者 别 除 某 些 特征 变量 
模型 调 优 ， 好 的 模型 应 该 经 过 仔细 地 调 优 。 但 在 调整 的 过 程 中 ， 也 要 注意 
问题 。 





线性 回归 模型 和 近邻 模型 都 属于 “监督 性 学 习 算法 "， 也 就 是 说 ， 预 测 变 量 的 观测 值 x 和 
待 预 测 变 量 的 观测 值 y 都 是 已 知 的 ， 学 习 的 目的 是 找到 x 产生 yy 的 函数 。 接 下 来 我 们 要 介 
绍 的 算法 属于 “ 非 监 督 性 学 习 算 法 ”， 它 适用 于 y 的 观测 值 未 知 的 数据 。 


3.2.3 kk 均值 算法 

之 前 介绍 的 算法 都 属于 监督 性 学 习 算 法 ， 它 适用 于 yy 的 观测 值 (对 于 分 类 问题 来 说 就 是 待 
预测 变量 的 标签 值 ) 已 知 的 情况 。 在 这 个 背景 下 ， 我 们 总 是 希望 模型 对 y 的 预测 越 精 确 越 
好 ， 这 也 是 为 什么 在 监督 性 学 习 中 存在 模型 评价 标准 的 原因 。 


“ 非 监 督 性 学 习 算 法 ”的 典型 代表 是 聚 类 分 析 ， 在 聚 类 分 析 中 y 的 真实 标签 值 是 未 知 的 。k 
均值 是 我 们 要 接触 到 的 第 一 个 “ 非 监 督学 习 算 法 ”。 


假设 我 们 有 一 些 用 户 层面 的 观测 数据 ， 比 如 Google+ 的 数据 ， 某 些 调查 数据 ， 医 学 实验 数 
据 或 者 SAT 分 数 的 数据 。 


每 个 用 户 都 可 以 表示 成 某 些 特征 变量 的 组 合 ， 比 如 年 龄 、 性 别 和 收入 等 。 假 设 下 面 一 行 就 
是 用 户 数据 的 所 有 特征 变量 : 


age (年 龄 ) gender (性 别 ) income (收入 ) state (所 在 州 ) household size (住户 人 数 ) 


我 们 的 任务 是 根据 用 户 变量 信息 的 不 同 把 用 户 分 成 儿 组 。 这 个 任务 也 有 很 多 其 他 的 名 字 ， 
比如 分 层 、 分 组 、 聚 类 等 。 但 是 它们 都 指 的 是 一 个 意思 ， 那 就 是 根据 用 户 特征 的 信息 把 相 
似 的 用 户 组 合 起 来 形成 类 别 。 


聚 类 的 目的 有 很 多 ， 下 面 我 人 
























































举 几 个 例子 说 明 。 


reni 
N 














。 市 场 营销 中 经 常 需要 根据 用 户 的 不 同 特征 ， 提 供给 用 户 不 用 的 产品 或 者 服务 。 比 如 ， 打 
印 机 公司 肯定 只 想 把 墨盒 的 营销 广告 展示 给 已 经 有 打印 机 的 用 户 。 

。 也 许 你 手中 的 模型 只 适用 于 某 种 类 型 的 群体 数据 ， 或 者 你 想 对 不 同 的 群体 数据 应 用 不 同 
的 模型 。 

。 统计 学 中 的 分 拔 模 型 就 内 含 了 聚 类 的 想法 ， 比如 在 家 庭 消 费 调查 数据 中 ， 分 层 模型 会 根 
据 地 理 位 置信 息 的 不 同 ， 对 不 同 的 区 域 采 用 不 同 的 模型 形式 。 


为 了 展示 为 什么 聚 类 分 析 是 有 用 的 ， 试 想 一 下 在 建 模 过 程 中 ， 我 们 经 常 需 要 对 某 些 特征 变 
量 (属性 变量 ) 进行 离散 化 或 者 分 块 化 (分 组 )。 
































比如 年 龄 变量 可 以 分 块 : 20~24 周岁 、25~30 周岁 ， 等 等 。 收 入 变量 也 同样 可 以 分 块 ， 而 
像 “ 所 在 城市 ”或 者 “所 在 州 ” 这 样 的 变量 因为 已 经 是 分 类 变量 ， 就 不 需要 再 做 分 块 了 。 
但 是 ， 如 果 一 个 分 类 变量 的 类 别 过 多 ,分 块 仍然 是 必要 的 ， 当 然 这 要 取决 于 你 所 采用 的 模 
型 以 及 样本 数据 量 的 大 小 。 比 如 ,“ 所 在 州 ” 变 量 可 以 再 分 块 “ 所 在 区 域 ” 变 量 ， 该 变量 
中 包含 较 少 的 类 别 : 东西 部 、 中 部 ， 等 等 。 


假设 年 龄 被 分 成 了 10 组 ， 性 别 是 两 组 ， 并 且 该 被 分 块 的 变量 都 已 经 完成 了 分 块 ， 那 么 我 
们 可 能 会 得 到 10 x 2 x 50 x 10x 3230000 种 不 同 的 组 合 。 这 对 于 建 模 来 说 ， 已 经 是 很 
大 规模 的 分 组 了 。 


由 于 我 们 有 5 个 分 组 过 的 变量 ， 试 想 一 下 ， 在 一 个 五 维 空间 中 ， 每 个 变量 都 对 应 一 个 坐标 
Ah: 因此 ， 有 性 别 轴 、 收 入 轴 等 。 每 个 分 组 都 对 应 相应 的 坐标 轴 点 。 这 样 做 的 结果 是 这 些 
坐标 轴 交 织 形 成 的 网 将 包含 每 一 个 可 能 的 属性 变量 的 组 合 值 。 


每 个 数据 点 都 在 这 个 空间 中 对 应 坐标 轴 系 统 内 的 某 一 个 组 合 点 。 这 样 看 来 ，30 000 个 不 同 
的 组 合 实在 是 过 多 了 。 比 如 ， 从 市 场 营销 的 角度 来 说 ， 没 有 任何 一 家 公司 想 指定 30 000 种 
不 同 的 营销 策略 。 


也 许 这 个 时 候 ， 也 才 会 感到 无 助 而 尝试 寻求 算法 的 帮助 了 ， 尤 其 是 在 这 种 情形 下 ， 你 想 在 
建 模 之 前 进行 分 组 ， 却 又 不 想得到 上 万 个 不 同 的 组 别 。 这 就 是 均值 从 类 可 以 做 的 事情 : k 
就 是 这 个 聚 类 算法 最 后 所 得 到 的 类 别 数 。5 

二 维 的 问题 

刚刚 的 五 维 问题 可 能 很 难 在 脑海 中 有 画面 感 ， 现 在 我 们 讨论 一 个 更 简单 的 二 维 问题 。 这 里 
段 设 数 据 是 有 关 广 告 点 击 率 的 ， 我 们 知道 变量 时 两 个 ， 其 中 x 是 用 户 被 展示 的 广告 数 ， 另 
外 一 个 变量 y 是 用 户 点 击 广告 的 次 数 。 


图 3-9 用 散 点 图 展示 了 数据 的 大 致 分 布 形态 。 








































































































注 5: 通常 是 一 个 小 于 10 的 数 ， 对 于 市 场 营 销 来 说 ，10 个 类 别 肯定 要 比 30 000 个 要 容易 操作 。 
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图 3-9: 二 维 空间 上 的 聚 类 过 程 ， 先 看 左 半 边 从 上 往 下 ， 再 看 右 半边 从 上 往 下 〈 另 见 彩 插图 3-9) 


从 图 3-9 的 左上 角 的 散 点 图 可 以 看 出 ， 数 据 自然 地 聚 成 了 几 类 。 对 于 二 维 空间 的 数据 来 说 ， 
如 果 数 据点 不 多 ， 我 们 很 容易 就 可 以 通过 肉眼 判断 出 数据 大 概 聚 成 了 多 少 类 。 当 数据 维 数 
增加 或 者 数据 量变 大 之 后 ， 就 不 可 能 依赖 于 肉眼 判断 了 ， 你 需要 一 个 类 似 于 均值 聚 类 的 
算法 帮助 你 判断 数据 中 到 底 有 多 少 类 别 。 大 均值 聚 类 可 以 在 d 维 空间 中 找到 聚 类 ， 其 中 4 
是 数据 空间 的 维度 ， 也 是 每 个 数据 点 所 具有 的 特征 变量 的 个 数 。 


图 3-9 展示 了 聚 类 的 整个 过 程 ， 可 以 总 结 为 以 下 四 步 。 


(1) 首先 ， 在 数据 空间 中 随机 挑选 大 个 点 〈 叫 作 中 心 点 ，centroid) 。 这 也 叫 大 均值 聚 类 的 初 
始 化 操作 ， 要 尽量 让 中 心 店 靠近 数据 点 ， 并 且 各 个 中 心 点 之 间 要 明显 不 同 。 

(2) 将 数据 点 分 类 到 离 它 最 近 的 中 心 点 

(3) 重新 计算 中 心 点 的 位 置 。 

(4) 重复 上 述 两 部 直到 数据 中 心 点 的 位 置 不 再 变动 ， 或 者 变动 幅度 很 小 为 止 。 


至 于 如 何 确定 算法 已 经 迭代 完毕 也 没有 绝对 的 标准 。 其 至 对 于 的 选择 也 没有 标准 ， 毕 竞 
这 是 一 个 非 监督 性 的 学 习 方法 , 上 的 大 小 要 通过 不 断 地 尝试， 以 确定 一 个 较为 合适 的 值 。 
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这 是 一 个 典型 的 非 监督 性 学 习 的 例子 ， 因 为 所 有 的 数据 点 都 没有 事先 做 好 的 标签 类 别 值 ， 
都 是 通过 算法 来 发 现 。 


大 均值 聚 类 算法 有 一 些 已 知 的 缺点 。 


。 的 选择 是 颇具 艺术 性 的 。 当 然 , 大 的 取 值 也 是 有 上 下 限 的 ， 需 要 满足 1 < k < n， 其 中 
n 是 数据 的 样本 量 。 

。 收敛 性 问题 : 可 能 不 存在 唯一 解 ， 导 致 算法 在 两 种 可 能 解 之 间 来 回 迭 代 而 无 法 收敛。 

。 可 解释 性 问题 : 也 许 最 终 的 聚 类 结果 很 难 给 出 合理 的 解释 。 这 通常 是 上 均值 聚 类 最 坏 手 
的 问题 。 


























尽管 有 很 多 问题 但 是 均值 察 类 算法 因为 其 逻辑 简单 ， 运 行 速度 非常 快 ， 因 此 在 实际 中 
得 到 了 广泛 的 应 用 : 包括 市 场 营销 、 计 算 机 视觉 (图像 分 割 ) 等 领域 都 有 较 多 的 应 用 。k 
均值 聚 类 还 可 以 与 其 他 监督 性 学 习 算 法 结合 起 来 使 用 ， 作 为 某 些 模型 的 起 始 估计 值 。 


ERP, 大 均值 聚 类 同样 可 以 用 一 行 代码 搞定 : 























kmeans(x, centers, iter.max = 10, nstart = 1, 
algorithm = c("Hartigan-Wong", "Lloyd", "Forgy", 
"MacQueen")) 


代码 中 的 x 是 数据 矩阵 ， 算 阵 中 的 每 一 列 代表 一 个 特征 变量 。 最 大 的 迭代 次 数 由 iter .max 
所 确定 ， 这 里 我 们 设 定 为 10， 当 然 你 也 可 以 改 为 自己 认为 合理 的 数值 。 有 很 多 具体 的 算法 
可 以 实现 大 均值 聚 类 ， 你 可 以 指定 使 用 哪 一 个 算法 。 

















关于 均值 聚 类 的 背景 知识 


我 们 刚才 不 是 已 经 详细 地 解释 了 这 个 算法 的 步骤 了 吗 ? 它 看 起 来 十 分 简单 嘛 。 其 实 不 
AR. 大 均值 聚 类 其 实 经 过 了 很 长 时 间 的 发 展 。 


1957 年 Hugo Steingaus 和 Stuart Lloy 各 自 独立 地 开发 了 这 个 算法 的 早起 标准 版 本 ， 当 
然 还 不 叫 久 均值 聚 类 。 来 自 贝 尔 实验 室 的 James MacQueen 在 1967 年 首次 使 用 了 这 一 
名 称 。 但 直到 1982 年 James 关于 该 名 称 的 论文 才 得 到 公开 发 表 (之 前 是 作为 贝尔 实验 
室 的 内 部 研究 而 没有 对 外 发 表 ) 。 

在 20 世纪 60 年 代 和 70 年代, 上 均值 聚 类 算法 得 到 了 很 多 改进 ， 包 括 Hartigan-Wong、 

Lloyd 和 Forgy 等 学 者 都 有 所 贡献 。 我 们 之 前 描述 的 算法 步骤 就 来 自 于 Hartigan-Wong 
开发 的 版 本 。 


直到 最 近 ， 还 会 有 关于 大 均值 聚 类 算法 的 新 研究 发 表 。 其 中 值得 提 及 的 是 David Arthur 
和 Sergei Vassilvitskii (现任 职 于 谷歌 ) 于 2007 年 发 表 的 大 均值 ++ 算法 。 该 算法 通过 
最 优化 初始 随机 种 子 有 效 地 避免 了 算法 不 收敛 的 问题 
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3.3 练习 : 机 器 学 习 算 法 基础 


继续 我 们 上 一 章 关 于 纽约 市 (曼哈顿 ) 房地产 的 数据 分 析 。 相 关 信 息 可 见 http://abt. 
cm/1g3A12P., 


。 应 用 线性 回归 模型 ， 分 析 房 地 产销 售 额 。 选 择 你 觉得 可 能 有 用 的 预测 变量 ， 并 且 验 证 为 

什么 线性 回归 模型 适用 于 该 数据 。 

可 视 化 线性 回归 模型 的 参数 和 拟 合 情 况 。 

。 用 近邻 模 做 预测 。 确 保 你 在 训练 模型 之 前 已 经 抽 离 了 一 部 分 数据 用 作 独 立 测试 。 找 到 
相关 的 预测 变量 以 及 最 优 的 上 值 以 达到 最 小 的 预测 误差 。 

。 将 你 的 模型 结论 通过 可 视 化 和 报告 的 形式 展示 给 大 家 。 

。 基于 模型 的 分 析 结 果 ， 提 出 一 些 可 行 的 建议 。 


答案 

上 一 音 我 们 讲述 了 如 何 清理 和 探索 该 数据 集 。 如 有 果 你 之 前 没有 动手 清理 过 该 数据 ， 现 在 真 
的 是 需要 动手 的 时 候 了 ， 因 为 在 应 用 回归 模型 分 析 数 据 之 前 ， 数 据 必须 是 干净 的 。 接 下 来 
的 两 段 R 代码 ， 第 一 段 是 有 关于 如 何 针 对 该 数据 构建 一 个 线性 回归 模型 的 ， 第 二 段 是 有 关 
如 何 清 理 和 准备 数据 以 应 用 近邻 模型 进行 预测 的 。 


示例 R 代 码 : 房地产 数据 的 线性 回归 模型 
作者 : Ben Reddy 



































modeli <- lm(log(sale.price.n) ~ log(gross.sqft),data-bk.homes) 
HE 想 一 想 这 里 的 代码 是 用 来 做 什么 的 

















bk.homes[which(bk.homes$gross.sqft==0),] 


bk.homes <- bk.homes[which(bk.homesSgross.sqft»0 & 
bk.homesSland.sqft»0),] 

modeli <- lm(log(sale.price.n) ~ log(gross.sqft),data-bk.homes) 

summary (model1) 


plot(log(bk.homesSgross.sqft),log(bk.homesSsale.price.n)) 
abline(modeli,col-"red",lwd-2) 
plot(resid(modeli)) 


model2 «- lm(log(sale.price.n) ~ log(gross.sqft) + 
log(land.sqft) + factor(neighborhood),data-bk.homes) 

summary (model2) 

plot(resid(model2)) 


HE JI T GHI RD EEERUM, ix HISSUSCU B BEER 
model2a «- lm(log(sale.price.n) ~ 0 + log(gross.sqft) + 
log(land.sqft) + factor(neighborhood),data-bk.homes) 

summary (model2a) 
plot(resid(model2a)) 
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## 加 入 building type (建筑 种 类 ) 变量 

model3 <- lm(log(sale.price.n) ~ log(gross.sqft) + 
log(land.sqft) + factor(neighborhood) + 
factor(building.class.category),data-bk.homes) 

summary (model3) 

plot(resid(model3)) 





## 加 入 neighborhood (邻居 个 数 ) 和 building type (建筑 ) 之 间 的 交叉 效应 变量 
model4 <- lm(log(sale.price.n) ~ log(gross.sqft) + 
log(land.sqft) + factor(neighborhood)* 
factor(building.class.category),data-bk.homes) 
summary (model4) 
plot(resid(model4)) 


示例 R 代 码 : 房地产 数据 的 k 近邻 模型 


作者 : Ben Reddy 
require(gdata) 
require(geoPlot) 


require(class) 
setwd("-/Documents/Teaching/Stat 4242 Fall 2012/Homework 2") 


mt «- read.xls("rollingsales manhattan.xls", 
patternz"BOROUGH",stringsAsFactors-FALSE) 

head(mt) 

summary(mt) 


names(mt) «- tolower(names(mt)) 

mt$sale.price.n «- as.numeric(gsub("[^[:digit:]]","", 
mt$sale.price)) 

sum(is.na(mt$sale.price.n)) 

sum(mt$sale.price.n--0) 


names(mt) «- tolower(names(mt)) 


zt 利用 正则 表达 式 请 理 和 格式 化 数据 
mt$gross.sqft <- as.numeric(gsub("[^[:digit:]]","", 
mt$gross.square.feet)) 


mt$land.sqft <- as.numeric(gsub("[^[:digit:]]","", 
mt$land.square.feet)) 


mt$sale.date «- as.Date(mt$sale.date) 
mt$year.built <- as.numeric(as.character(mtSyear.built)) 
mt$zip.code <- as.character(mt$zip.code) 





iH 使 数据 集 更 加 标准 化 〈 设 定 房 屋 建筑 的 起 始 年 份 为 6、 土 地 面积 为 平方 英尺 、 售 价 为 6 的 
或 者 负 值 的 去 掉 等 操作 ) 

min_price <- 10000 

mt <- mt[which(mt$sale.price.n»-min price),] 





n obs <- dim(mt)[1] 
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mt$address.noapt <- gsub("[,][[:print:]]*","", 
gsub("[ ]+"," ",trim(mtSaddress))) 


mt add <- unique(data.frame(mtSaddress.noapt,mt$zip.code, 
stringsAsFactors-FALSE)) 


names(mt add) <- c("address.noapt","zip.code") 
mt add <- mt add[order(mt add$address.noapt),] 


# 找 重 复 值 并 删除 ， 这 些 重复 值 往往 是 一 个 地 址 ， 但 邮编 却 不 同 

dup <- duplicated(mt_add$address.noapt) 

# 删除 这 些 重复 值 

dup, add <- mt add[mt add$dup,1] 

mt add <- mt add[(mt add$address.noapt !- dup add[1] & 
mt add$address.noapt !- dup add[2]),] 

n add «- dim(mt add)[1] 














* 随机 选取 500 个 地 址 ， 不 然 程序 永远 跑 不 完 
n sample «- 500 
add sample «- mt add[sample.int(n add,size-n sample),] 


# 首先 用 手头 的 一 个 地 址 尝试 一 下 

query list <- addrListLookup(data.frame(1:n_sample, 
add sampleSaddress.noapt,rep("NEW YORK",times-n sample), 
rep("NY",times-n sample),add sample$zip.code, 
rep("US",times-n sample)))[,1:4] 





query list$matched <- (query list$latitude !- 0) 


unmatched inds <- which(!query listS$matched) 
unmatched «- length(unmatched inds) 


# 尝试 把 EAST/WEST 改作 E/W 
query list[unmatched inds,1:4] <- addrListLookup 
(data.frame(1:unmatched,gsub(" WEST "," W ", 
gsub(" EAST "," E ",add sample[unmatched inds,1])), 
rep("NEW YORK",times-unmatched), rep("NY",times-unmatched), 
add sample[unmatched inds,2],rep("US",times-unmatched)))[,1:4] 


query listS$matched <- (query list$latitude !- 0) 
unmatched inds <- which(!query listS$matched) 
unmatched «- length(unmatched inds) 


# 尝试 把 STREET/AVENUE 改作 ST/AVE 
query list[unmatched inds,1:4] <- addrListLookup 
(data.frame(1:unmatched,gsub(" WEST "," W ", 
gsub(" EAST "," E ",gsub(" STREET"," ST", 
gsub(" AVENUE"," AVE",add sample[unmatched inds,1])))), 
rep("NEW YORK",times-unmatched), rep("NY",times-unmatched), 
add sample[unmatched inds,2],rep("US",times-unmatched)))[,1:4] 


query listS$matched <- (query list$latitude !- 0) 
unmatched inds <- which(!query listS$matched) 
unmatched «- length(unmatched inds) 





H 现在 我 们 已 经 做 得 差不多 了 

add sample «- cbind(add sample,query list$latitude, 
query list$longitude) 

names(add sample)[3:4] «- c("latitude","longitude") 





add sample <- add sample[add sampleSlatitude!-0,] 
add use «- merge(mt,add sample) 
add use «- add use[!is.na(add use$latitude),] 


# 地 理 坐 标 值 

map_coords «- add use[,c(2,4,26,27)] 

table(map coords$neighborhood) 

map, coordsS$neighborhood <- as.factor(map coordsS$neighborhood) 











geoPlot(map coords,zoom-12,color-map coordsS$neighborhood) 


HE - 使 用 knn 函数 
大 - 当然 可 以 用 的 方法 还 有 很 多 ， 此 处 不 讨论 过 多 





map_coords$class <- as.numeric(map_coords$neighborhood) 
n_cases <- dim(map_coords)[1] 
split <- 0.8 


train_inds <- sample.int(n_cases,floor(split*n_cases)) 
test_inds <- (1:n_cases)[-train_inds] 


k_max <- 10 
knn pred <- matrix(NA,ncol-k max,nrow-length(test inds)) 
knn test error «- rep(NA,times-k max) 


for (i in 1:k max) { 
knn pred[,i] «- knn(map coords[train inds,3:4], 
map coords[test inds,3:4],clemap coords[train inds,5],k-i) 
knn test error[i] <- sum(knn pred[,i]!- 
map coords[test inds,5])/length(test inds) 


} 


plot(1:k max,knn test error) 








大 规模 数据 建 模 及 算法 


迄今 为 止 我 们 分 析 过 的 数据 都 难 称 为 大 数据 。 如果 遇 到 大 型 的 数据 ， 我 们 的 模型 和 算 
法 会 发 生 怎样 的 改变 呢 ? 


在 大 多 数 情况 下 ， 大 型 数据 都 可 以 拆 分 为 一 系列 小 数据 集 之 后 再 分 别 独立 建 模 (设置 
可 以 使 用 同一 个 模型 ) 。 这 通常 叫 作 大 数据 的 “碎片 化 ”(sharding， 碎 片 化 就 是 指 将 大 
数据 分 割 成 很 多 小 的 部 分 并 分 配给 不 同 的 计算 机 进行 建 模 ， 模 型 的 参数 估计 会 以 分 布 
的 形式 返回 给 建 模 者 ) 。 
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碎片 化 国 然 是 大 规模 数据 建 模 的 一 个 较为 简单 和 直接 的 解决 方案 。 然 而 ， 当 数据 的 规 
模 达 到 一 定 的 级 别 ， 模 型 本 身 就 需要 优化 以 解决 计算 量 过 大 的 问题 。 比 如 ， 线 性 回归 
模型 的 参数 估计 过 程 严重 依赖 于 矩阵 的 求 北 操作 。 对 于 大 数据 来 说 ， 矩 隆 的 求 逆 操作 
是 不 现实 的 ， 因 此 应 该 考虑 如 何 近似 化 婚 阵 的 求 逆 以 减轻 计算 负担 ， 从 而 使 得 线性 回 
归 可 以 应 用 于 分 析 大 数据 。 


基于 大 数据 分 析 需 求 的 模型 优化 是 大 数据 领域 的 研究 前 沿 ， 它 需要 技术 和 理论 的 同步 
发 展 。Edinburugh 大 学 的 Peter Richtarik 于 2013 年 有 过 一 段 关 于 大 数据 下 模型 优化 的 
演讲 ， 他 说 道 :“ 在 大 数据 领域 ,传统 的 基于 最 优化 方法 的 模型 ， 因 为 涉及 大 量 的 迭代 
操作 ， 给 计算 造成 了 巨大 的 负担 ， 有 时 候 即便 是 一 次 选 代 也 很 难 在 短 时 间 内 完成 。 因 
为 大 多 数 统计 模型 在 开发 之 初 都 没有 考虑 过 大 数据 的 适用 问题 ， 就 算 在 10 年 前 我 们 
也 很 难 预见 数据 会 达到 如 今 的 规模 。 因 此 ， 我 们 辽 需 一 些 简单 的 、 数 据 友 好 的 、 内 存 
要 求 低 的 的 模型 和 算法 ， 以 适应 大 规模 数据 分 析 。 解 决 平行 计算 框架 问题 (包括 多 核 
计算 问题 、GPU 计算 问题 以 及 计算 机 集成 技术 ) 才能 有 效 解决 大 数据 分 析 的 海量 计算 
问题 。 

对 该 问题 的 讨论 已 经 超出 了 本 书 的 范畴 ， 但 是 作为 一 名 数据 科学 家 ， 我 们 要 知晓 这 些 
问题 的 存在 。 在 第 14 章 我 们 还 会 对 其 中 的 某 些 细节 问题 做 进一步 的 讨论 。 














3.4 总 结 


本 章 介绍 了 机 器 学 习 领 域 三 个 基础 算法 ， 它 们 已 经 被 广泛 地 应 用 于 数据 分 析 的 各 个 领域 。 
如 果 你 已 经 理解 和 掌握 了 这 三 个 算法 ， 那 么 对 于 数据 科学 来 说 ， 你 已 经 基本 入 门 了 。 如 果 
你 还 是 觉得 理解 和 掌握 这 些 基本 的 算法 有 点 困难 ， 不 用 灰心 走 气 ， 这 本 来 就 不 是 一 段 轻松 
的 学 习 旅 程 。 
































在 很 多 情况 下 ， 对 于 预测 和 分 类 问题 来 说 ， 线 性 回归 模型 都 是 最 基础 的 模型 。 本 章 已 经 为 
大 家 展示 了 如 何 应 用 线性 回归 模型 预测 一 个 连续 型 的 数值 型 变量 ， 模 型 中 可 以 使 用 多 个 预 
测 变量 。 在 第 5 章 ， 我 们 还 会 更 详细 地 讨论 线性 回归 模型 ， 我 们 还 会 学 习 到 逻辑 回归 模 
型 ， 它 可 以 用 来 预测 二 元 分 类 变量 ， 第 6 章 将 讨论 时 间 序 列 模型 。 在 第 7 章 ， 我 们 会 为 大 
家 介绍 有 关 模 型 中 特征 变量 的 选择 问题 。 











大 近邻 和 大 均值 聚 类 是 两 种 聚 类 算法 ， 适 用 于 把 相似 的 事物 归 类 的 问题 。 对 于 聚 类 算法 来 
说 ， 最 重要 的 就 是 距离 的 定义 和 模型 的 评价 标准 这 两 个 问题 。 它 们 的 解决 方式 都 具有 一 定 
的 灵活 性 和 主观 性 。 下 一 章 我 们 会 继续 讨论 有 关 聚 类 算法 的 问题 ， 其 中 朴素 贝 叶 斯 算法 将 
是 下 一 章 的 重点 。 在 第 10 章 我 们 会 聊 到 关于 社交 网 络 数据 的 分 析 问 题 ， 社 交 网 络 分 析 中 
的 图 聚 类 模型 是 非常 有 意思 的 研究 领域 。 本 书 没 有 涉及 的 聚 类 算法 有 分 层 聚 类 和 基于 模型 
的 聚 类 ， 有 兴趣 的 读者 可 以 自动 找 资料 了 解 一 下 。 








对 于 聚 类 分 析 感 兴趣 的 读者 ， 我 们 推荐 Hastie 和 Tibshirani 的 著作 Elements of Statistical 
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Learning (《 统 计 学 习 基 础 》 http://stanford.io/16hcTKn) 一 书 ， 英 文 版 由 Springer 出 版 社 出 
版 。 想 要 深入 理解 贝 叶 斯 视角 下 的 回归 模型 ,我们 极力 推荐 Andrew Gelman 和 Jennifer Hill 
的 著作 Data Analysis using Regression and Multilevel/Hierarchical Models (《 基 于 回归 和 多 层 
/分 层 模 型 的 数据 分 析 》)。 


Rachel 在 2013 年 5 月 参加 了 在 伦敦 帝国 理工 学 院 (Imperial College London). 举办 的 大 数 
据 挖 掘 会 议 。 来 自 于 剑桥 大 学 的 Zoubin Ghahramani 教授 是 会 议 的 嘉宾 之 一 ， 他 在 其 中 的 
一 个 研讨 会 上 提 到 了 “自动 化 统计 学 家 ”的 概念 ， 他 说 打造 一 个 “自动 化 统计 学 家 ”是 他 
计划 要 完成 的 长 期 项 目 之 一 。 对 于 “自动 化 统计 学 家 ”这 个 概念 你 有 什么 想法 呢 ? 如 果 让 
你 打造 一 个 “自动 化 统计 学 家 ”你 该 如 何 着 手 呢 ? 
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第 4 章 
垃圾 邮件 过 滤器 、 朴 素 
贝 叶 斯 与 数据 清理 





本 章 的 贡献 主要 来 自 于 Jake Hofman 先生 。Jake 不 和 久 前 刚 从 雅虎 研究 院 离 职 ， 随 后 加 入 了 
微软 研究 院 。 他 曾 在 哥伦比亚 大 学 主 修 物 理学 ， 并 获得 博士 学 位 。 毕 业 之 后 ， 他 留任 哥 伦 
比 亚 大 学 并 长 期 教授 一 门 广 受 学 生 欢 迎 的 数据 建 模 课 程 。 近 期 他 也 开始 教授 一 门 新 课 ， 课 
程 名 叫 作 “社会 科学 中 的 计算 方法 ”。 


让 我 们 先 来 了 解 一 下 Jake 的 数据 科学 背景 。 他 本 人 曾经 给 数据 科学 添加 过 一 项 必 备 技能 ， 
名 日 “数据 清理 "。 他 说 自己 不 知道 为 什么 在 数据 清理 上 花 了 那么 多 的 时 间 ， 然 而 ， 熟 能 
生 巧 ， 他 便 然 已 经 成 为 了 数据 清理 方面 的 权威 专家 。 


首先 看 一 下 图 4.1， 这 看 起 来 应 该 是 某 人 电子 邮箱 首页 的 截图 ， 图 中 每 一 行 显示 的 是 一 对 
邮件 的 概要 。 


再 仔细 看 一 下 ， 你 可 能 已 经 发 现 某 些 邮 件 乍 一 看 就 能 判断 出 是 垃圾 邮件 。 





















































但 是 现实 的 问题 是 ， 我 们 如 何 才 能 确认 一 封 邮 件 是 否 是 垃圾 邮件 呢 ? 我 们 的 大 脑 可 以 综合 
各 方面 信息 对 一 封 邮件 的 性 质 做 出 逻辑 推断 ， 那 么 你 能 否 通 过 编程 来 模拟 人 脑 识别 垃圾 邮 
件 的 过 程 呢 ? 
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图 4-1. 邮箱 中 的 垃圾 邮件 
Rachel 的 课程 给 了 我 们 一 些 启示 : 垃圾 邮件 通 会 与 某 些 特征 指标 紧密 相关 。 


。 如 果 邮 件 中 包含 任何 有 关 “ 伟 哥 ” 的 信息 ， 那 么 基本 上 可 以 确定 是 垃圾 邮件 。 这 是 一 条 
非常 明晰 的 规则 ， 但 也 许 垃圾 邮件 的 发 送 者 也 同样 了 解 该 规则 , 并 可 以 通过 改变 拼写 等 
方法 成 功 地 规避 检查 (其实 ， 一些 垃 圾 邮件 制造 者 陪客 过 人 ， 只 是 他 们 没有 把 智慧 用 在 
该 用 的 地 方 )。 

。 邮件 主题 的 字符 长 度 ， 感 叹 号 (或 者 其 他 标点 符号 ) 的 使 用 频率 等 指标 也 可 以 作为 垃 专 
邮件 的 特征 指标 。 但 也 有 例外 ， 和 譬如 雅虎 公司 的 商标 名 是 “Yahoo!”"， 其 中 的 感叹 号 是 
该 商标 的 设计 元 素 ， 因 此 不 能 被 一 视 同 仁 地 视 作 垃圾 邮件 的 标识 。 也 就 是 说， 垃圾 邮件 
的 特征 指标 设计 也 不 能 过 于 简单 和 严 奇 。 


如 果 你 想 通 过 编程 实现 垃圾 邮件 的 过 污 ， 下 面 几 点 是 我 们 的 建议 。 


。 尝试 使 用 概率 模型 。 换 句 话 说， 避免 使 用 过 于 简单 的 过 滤 指 标 。 更 好 的 办 法 是 通过 指标 
组 合 的 方式 ， 利 用 概率 模型 计算 邮件 是 垃圾 邮件 的 概率 。 在 我 们 看 来 ， 概 率 模型 非常 适 
合用 来 搭建 垃圾 邮件 过 滤器 

。 在 之 前 的 章节 中 我 们 已 学 习 了 大 近 邻 以 及 线性 回归 模型 ， 那 么 这 两 个 模型 可 否 用 在 此 
处 呢 ? (ERE: 不 可 以 。 大 家 可 以 先 想 一 想 为 什么 。) 


本 章 我 们 将 详细 讨论 如 何 应 用 朴素 贝 叶 斯 模型 搭建 一 个 垃圾 邮件 过 滤器 。 理论 上 看 来 ， 杆 
素 贝 叶 斯 是 一 个 介 于 大 近邻 和 线性 回归 模型 之 间 的 方法 。 至 于 原因 ， 此 处 说 来 话 长 ， 让 我 
们 先 从 线性 回归 说 起 。 


























4.1.1 线性 回归 为 何不 适用 
线性 回归 大 家 都 不 陌生 了 ， 它 是 我 们 工具 箱 中 的 必 备 神器 。 首 先 我 们 讨论 一 下 该 模型 的 适 
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用 条 件 以 及 它 为 何不 适用 于 垃圾 邮件 过 滤 问 题 。 为 了 便于 建 模 ， 我 们 将 邮件 数据 先 转换 成 
数据 矩阵 ， 该 矩阵 的 每 一 行 代表 某 封 邮件 的 信息 (可 以 用 email_id 来 标明 邮件 号 )， 邮 伯 
中 每 个 出 现 过 的 单词 被 称 作 “ 特 征 ”， 它 们 被 置 于 矩阵 的 列 上 。 举 例 来 说 ， 单 词 “ 伟 哥 ” 
可 以 构成 了 和 矩阵 的 某 一 列 ， 如 果 某 封 邮件 出 现 了 至 少 一 次 “伟哥 *"， 那 么 在 该 邮件 行 的 
“伟哥 ”这 一 列 上 填 上 数字 1， 代表“ 伟哥 ”在 该 封 邮件 中 至 少 出 现 了 一 次 ， 否则 填 上 数字 
0 HA, 我们 也 可 以 在 这 个 位 置 填 上 “伟哥 ”出 现 的 实际 次 数 。 至 于 到 底 怎么 填 ， 要 由 
数据 分 析 人 员 事 先 确 定 。 


回想 一 下 前 一 章 有 关 线 性 回归 的 内 容 ， 在 建 模 之 前 我 们 首先 需要 一 个 关于 邮件 详情 的 训练 
数据 集 。 在 这 个 数据 集中 ， 每 一 封 邮件 已 经 被 标明 了 是 否 是 垃圾 邮件 。 那 么 一 个 自然 的 问 
题 就 是 ， 如 何 确定 一 封 邮件 是 否 是 垃圾 邮件 呢 ? 一 种 做 法 是 人 工 核查 每 封 邮 件 ， 并 为 每 
一 封 邮 件 打上 是 否 为 垃圾 邮件 的 标签 信息 。 该 方法 固然 可 行 ， 但 会 耗费 大 量 的 人 力 物力 
财力 。 另 一 种 做 法 是 应 用 市 面 上 已 有 的 垃圾 邮件 过 滤器 为 每 一 封 邮件 打上 标签 信息 ， 比 
如 使 用 Gmail 声名 远扬 的 垃圾 邮件 过 滤 系 统 。( 此 处 一 个 自然 的 问题 是 ， 如 果 已 经 有 了 像 
Gmail 这 样 一 个 业已 成 熟 的 垃圾 邮件 处 理 器 ， 为 啥 我 们 还 非 要 自己 动手 做 一 个 呢 ? 这 是 个 
好 问题 ， 不 过 在 这 里 我 们 只 是 想 通过 演示 如 何 搭建 一 个 类 似 Gmail 的 过 滤器 去 学 习 相关 的 
算法 )。 一 旦 搭建 好 了 模型 ， 我们 就 可 以 用 它 预测 一 封 没有 标签 的 新 邮件 到 底 是 否 为 垃圾 
邮件 。? 





T 






























































不 适用 线性 回归 的 首要 原因 是 此 处 的 目标 了 变量 (邮件 是 否 为 垃圾 邮件 ) 是 一 个 二 元 变量 
(0 代表 垃圾 邮件 ，1 代表 正常 邮件 )。 我 们 知道 ， 线 性 回归 的 预测 值 是 一 个 连续 性 的 变量 ， 
它 可 能 是 实数 域 上 的 任何 一 个 数值 ， 因 此 它 的 预测 值 不 可 能 只 古 一 个 二 元 值 。 所 以 从 模型 
输出 值 的 性 质 来 说 ， 线 性 回归 不 适用 于 二 元 变量 的 建 模 ， 而 更 适用 于 连续 性 变量 。 











— 

















基本 上 可 以 说 ， 线 性 回归 对 于 垃圾 邮件 的 识别 问题 是 束手无策 的 ， 我 们 应 该 想 办 法 找到 一 
个 更 适用 于 二 元 变量 的 模型 。 但 其 实 ， 如 果 我 们 生 搬 硬 套 ， 仍 然 尝试 在 R 中 使 用 线性 回归 
模型 搭建 邮件 过 滤器 ， 从 理论 上 来 说 我 们 还 是 会 得 到 回归 模型 的 所 有 典型 的 输出 结果 。 因 
为 R 软件 本 身 不 会 告诉 我 们 某 个 模型 是 否 合适 。 我 们 还 是 可 以 用 线性 回归 ， 用 R 估计 出 模 
型 参数 以 及 预测 值 。 因 为 此 时 的 预测 值 是 一 个 连续 性 的 数值 ， 为 了 得 到 二 元 预测 值 (0/1) 
的 输出 结果 ， 我 们 需要 设 定 一 个 国 值 ， 并 且 规 定 : 如 果 预 测 值 在 国 值 之 上 就 设 定 预测 值 为 
1， 否 则 为 0。 


即便 如 此 生 搬 硬 套 ， 对 于 这 样 一 个 数据 集 来 说 ， 线 性 回归 模型 仍然 会 失败 。 为 什么 呢 ? D 
为 对 于 邮件 数据 来 说 ， 变 量 的 个 数 相 比 样本 量 的 个 数 实在 太 大 了 。 对 于 一 个 典型 的 邮件 数 
据 集 ， 样 本 量 的 单位 级 在 万 左右 (假设 有 1 万 封 邮件 )， 而 其 中 所 有 可 能 的 单词 个 数 可 能 
多 达 10 万 个 ， 也 就 是 说 ， 变 量 个 数 为 10 万 。 传 统 的 线性 回归 不 能 处 理 这 种 变量 个 数 多 于 
样本 量 的 情形 。 线 性 回归 模型 参数 估计 的 理论 告诉 我 们 ， 这 会 导致 线性 回归 最 小 二 乘 解 中 




































































注 1: 此 处 的 意思 是 ， 训 练 数据 集 必 须 是 已 经 做 好 标签 的 邮件 数据 ， 这 样 模型 也 有 了 变量 。 








Hy 
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的 矩阵 不 可 逆 。 就 算 换个 角度 ， 从 计算 机 存储 的 角度 来 说 ， 处 理 这 样 规模 的 数据 集 ， 普 通 
的 个 人 计算 机 还 是 会 显得 捉襟见肘 。 


接 下 来 很 自然 会 想到 ， 也 许 我 们 可 以 从 10 万 个 单词 出 挑选 出 最 经 常 出 现 的 1 万 个 单词 ， 
这 样 最 起 码 我 们 可 以 得 到 可 逆 的 估计 和 矩阵 了 。 但 即便 如 此 ， 模 型 的 估计 结果 也 会 非常 不 稳 
定 。 为 了 彻底 解决 变量 过 多 的 问题 ， 假 设 我 们 可 以 把 单词 的 变量 个 数 缩减 到 了 100 个 ( 比 
如 ， 邀 请 垃圾 邮件 领域 的 专家 仔细 挑选 最 有 用 的 单词 变量 ) ， 那 么 我 们 就 顺利 解决 了 模型 
的 估计 辣 题 了 。 真 的 如 此 吗 ” 其 实 不 然 ， 即 便 我 们 折腾 到 现在 ， 还 是 没有 解决 一 个 最 初 也 
是 最 根本 的 问题 : 线性 回归 根本 不 能 预测 输出 二 元 变量 值 ! 














番外 话 : 垃圾 邮件 过 滤器 之 现状 
p^ 。 过 去 的 5 年 中 ， 研 究 人 员 开 始 使 用 随机 梯度 的 方法 解决 我 们 刚才 提 到 的 模型 
径 ， 估 计 和 矩阵 不 可 逆 的 问题 。 例 如 ， 随 机 梯度 方法 可 以 和 逻辑 回归 模型 结合 用 来 
预测 二 元 目标 变量 ， 而 且 这 种 方法 能 够 考虑 到 单词 变量 之 间 的 相关 性 。 然 
而 ， 在 垃圾 邮件 过 滤 问 题 上 ， 杆 素 贝 叶 斯 模型 显示 了 强大 的 适用 性 ， 它 足够 
简单 ， 效 果 也 足够 好 。 



































4.1.2 kk 近邻 效果 如 何 
昕 起 来 朴素 贝 叶 斯 模型 十 分 诱 人 。 别 着 急 ， 我 们 很 快 就 会 讲 到 它 。 在 这 之 前 不 妨 让 我 们 先 
回顾 一 下 之 前 学 习 过 的 近邻 模型 。 对 于 任何 模型 来 说 ， 首 要 的 任务 还 是 要 选择 一 些 特征 
变量 。 沿 用 之 前 的 做 法 ， 我 们 仍然 使 用 单词 作为 特征 变量 。 如 果 一 gn 
相应 的 变量 值 为 1， 否 则 为 0。 对 于 大 近邻 模型 来 说 ， 最 重要 的 莫 过 于 确定 “近邻 ”的 含 
义 。 在 什么 样 的 情况 下 ， 两 封 邮 件 才 可 谓 “ 近 邻 ” 呢 ? 或 者 说 ， 两 个 给 定 特征 变量 的 邮件 
到 底 有 多 “近邻 ” 呢 ? 一 个 最 直接 的 想法 就 是 ， 当 这 两 封 邮件 包含 的 单词 十 分 相似 时 可 将 
它们 视 为 “近邻 ”。 





之 前 的 变量 个 数 大 于 样本 量 的 问题 在 这 里 同样 困扰 着 我 们 ， 虽然 在 近邻 方法 中 我 们 不 会 
遇 到 计算 逆 和 矩阵 的 问题 ， 但 是 我 们 还 是 有 一 个 大 麻烦 : 数据 空间 的 维度 太 高 了 。 我 们 有 1 
万 封 邮件 和 10 万 个 单词 ， 这 就 代表 数据 的 空间 高 达 10 万 维 。 从 计算 量 上 来 说 ， 在 如 此 高 
维度 的 空间 里 计算 相似 度 是 很 难 的 。 











但 其 实 计算 量 也 不 算是 ee < 间 内 ， 即 便 是 两 
个 最 近 的 “邻居 ”也 会 相距 深远 。 这 通常 称 作 “ 高 维 诅 党”"， 它 会 严重 影响 近邻 的 模型 
效果 。 
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番外 话 ， 数字 识别 


图 4-2 是 10 行 从 0~9 的 手写 数字 ,假设 我 们 想 用 一 种 算法 识别 这 些 手 写 数字 ,那么 
近邻 会 是 个 不 错 的 选择 。 





0123456781] 
012345501843 
0123456789 
0123456789 
0123456789 
0123456789 
01234546737 
0123456789 

0123450789 

01234S6784 











图 4-2: 手写 数字 


要 想 建 模 ， 首 先 需 要 处 理 手 写 图 像 数 据 ， 将 其 转换 成 可 以 分 析 和 建 模 的 形式 。 壁 如 说 ， 
我 们 可 以 用 一 个 16x 16 的 像素 框 表示 一 个 手写 数字 ， 框 内 的 每 个 像素 的 亮度 值 代 表 了 
这 个 数字 在 该 像素 上 的 表示 强度 。 然 后 再 将 这 个 16x 16 的 像素 框 拉 直 成 一 个 长 度 为 
256 的 向 量 。 这 样 做 的 目的 是 便于 我 们 接 下 来 应 用 阿 基 米 德 测度 计算 距离 。 换 向 话说 ， 
我 们 成 功 地 将 每 一 个 手写 数字 转化 成 了 一 个 长 度 为 256 的 向 量 。 这 样 一 来 ， 两 个 手写 
数字 的 差异 程度 则 可 以 用 两 个 向 量 的 阿 基 米 德 距离 来 表示 。 向 量 的 阿 基 米 德 距离 就 是 
向 量 所 有 元 素 的 “ 离 差 平方 和 "。 在 空间 上 解释 就 是 两 个 向 量 间 的 点 对 点 长 度 。 完 成 上 
述 的 形式 转化 和 距离 定义 之 后 ， 我 们 就 可 以 着 手 建 模 了 。 

大 近邻 的 模型 效果 会 随 着 近邻 个 数 的 改变 而 改变 。 我 们 需要 调整 好 大 的 大 小 以 尽量 避 
免 类 似 过 拟 合 的 现象 出 现 。 如 果 你 已 经 认真 做 完了 形式 转化 和 距离 定义 的 工作 ， 并 仔 
细 地 挑选 了 一 个 合理 的 大 值 ， 那 么 左近 邻 的 模型 效果 通常 都 不 会 让 你 太 失 望 。 即 使 是 
将 算法 扩展 到 一 个 较 大 的 数据 集 ， 模 型 准确 度 也 通常 会 达到 9796, 

模型 最 后 的 预测 效果 通常 用 一 个 “ 混 清 算 阵 ”表示 。 假 设 模型 的 任务 是 将 识别 结果 分 
到 可 能 的 大 个 类 别 中 (在 这 个 手写 数字 识别 的 例子 中 , k-10), WARA EERE 
个 xk 的 和 矩 阵 。 该 矩阵 中 的 列 代 表 实 际 的 标签 值 ， 行 代表 了 模型 预测 的 标签 值 。 因 此 
该 矩阵 的 第 (i, 个 元 素 就 代表 有 多 少 个 结果 ， 其 实际 的 标签 是 i 却 被 模型 预测 成 了 标 
签 j。 给 定 一 个 混 清算 阵 就 可 以 轻松 地 得 到 模型 的 预测 准确 度 : 也 就 是 所 有 被 正确 预测 
的 标签 数 占 总 标签 数 的 比例 。 在 前 一 章 中 ， 我 们 介绍 了 误 分 率 的 概念 ， 而 这 里 的 预测 
准确 度 = 1]- 误 分 率 。 


4.2 ”朴素 贝 叶 斯 模型 

我 们 似乎 走投无路 了 ， 因 为 线性 回归 和 近邻 两 大 神器 在 垃圾 邮件 过 滤 问 题 上 似乎 都 不 太 
给 力 。 不 要 灰心 ! 接 下 来 我 们 就 立马 介绍 朴素 贝 叶 斯 模型 ， 对 于 垃圾 邮件 过 滤 问 题 ， 它 可 
以 快刀 斩 乱 麻 。 
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4.2.4 贝 叶 斯 法 则 
让 我 们 通过 一 个 更 为 简单 的 例子 感受 一 下 为 什么 朴素 贝 叶 斯 会 大 有 作为 。 设 想 我 们 在 检测 


一 种 罕见 的 疾病 ， 其 在 人 群 中 的 发 病 率 只 有 1%。 我 们 的 测试 方法 非常 适用 于 此 病 ， 具 有 
很 高 的 精度 ， 但 也 并 非 10096 的 完美 。 其 表现 为 : 








e 99% 的 病人 可 以 被 检测 出 患 有 此 病 (测试 结果 为 阳性 ) ? 
。 99% 的 健康 人 可 以 被 检测 出 未 患 此 病 (测试 结 # 果 为 阴性 ) ° 


那么 现在 的 问题 是 ， 如 果 一 个 人 的 测试 结果 为 阳性 ， 那 么 他 真正 患 有 此 病 的 概率 是 多 少 
呢 ? 


让 我 们 先 用 一 个 策 方 法 回答 这 个 问题 。 假 设 有 100 x 100 = 10 000 个 群众 参 于 了 测试 ， 那 
么 根据 发 病 率 ， 这 个 人 群 中 会 有 100 个 人 患 有 此 病 ， 而 剩 下 的 9900 个 人 是 健康 的 。 该 测 
试 的 结果 是 100 个 患 病人 口中 会 有 99 个 被 检测 为 患 有 此 病 ， 然而 同样 的 ，9900 个 健康 人 
口中 同样 也 会 有 99 个 会 被 检测 为 患 有 此 病 。 也 就 是 说 ， 如 果 一 个 人 的 测试 结果 为 阳性 ， 
那么 他 真实 的 患 病 概率 是 对 半 开 ，50% ! 图 4-3 中 的 树 形 逻辑 图 更 好 的 刻画 了 我 们 刚才 的 
推理 过 程 。 





























图 4-3: 树 形 逻 辑 推断 图 


我 们 不 如 把 刚才 的 推理 过 程 用 公式 表示 一 下 ， 这 样 会 显得 我 们 比较 聪明 。 回 想 一 下 你 

上 过 的 初等 统计 学 的 课程 ， 给 定 ee 
它们 联合 发 生 的 概率 (表示 为 p œ, »)) 以 及 它们 相互 发 生 的 条 件 概率 (比如 说 po | x) 就 表 
示 给 定 事件 x 发 生 的 情况 下 ,事件 y 发生 的 概率 ) 有 如 下 关系 : 


p | Xp) =p, y) = p(x | yp) 





E2: 这 也 叫 作 “ 真 阳性 ”。 
注 3: 这 也 叫 作 “ 真 阴 性 ”。 


zu 
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应 用 此 式 ， 我 们 可 以 得 到 贝 叶 斯 法 则 并 进而 得 到 关于 PP Cy | x) 的 概率 表示 (此 处 假设 
po) * 0): 


p|»p) 
p(x) 


其 中 的 分 母 项 p(x) 可 视 作 一 个 “正则 常数 “， 并 且 通 常 来 说 得 到 它 的 值 相对 比较 容易 。 结 
合 之 前 的 例子 ， 这 里 y 对 应 于 事件 “ 患 有 此 病 *， 此 处 用 Sick 表示 ; x 对 应 于 “ 视 试 结果 
为 阳性 ”， 此 处 用 + 表示 。 应 用 上 述 的 贝 叶 斯 公式 就 可 以 计算 出 在 给 定 测试 结果 为 阳性 的 
条 件 下 某 人 真实 患 病 的 概率 : 


pOl|x) = 











p(+| sick) p (sick) B 0.99 . 0.01 
pO») 0.99 - 0.01 + 0.01 - 0.99 


结果 与 我 们 使 用 第 方法 得 出 的 结论 完全 一 致 | 








p(sick |+) = = 0.50 = 50% 





4.2.2 个别 单词 的 过 滤器 

准备 工作 已 经 做 得 比较 到 位 了 。 我 们 应 该 挝 起 袖子 ， 想 一 想到 底 如 何 应 用 如 此 简单 的 贝 叶 
斯 法 则 搭建 一 个 靠 谱 的 垃圾 邮件 过 着 器 呢 ? 的 确 ， 如 果 一 封 邮件 中 有 “伟哥 ”这 样 的 单 
词 ， 那 么 它 极 可 能 就 是 一 封 垃 圾 邮件 。 但 是 这 压根 还 设 完 啊 ， 我 们 还 需要 考虑 邮件 中 可 能 
出 现 的 形形色色 的 各 种 单词 呢 ! 


不 如 让 我 们 把 每 个 单词 抽象 出 来 ， 各 个 击毙 。 这 里 ， 单 词 用 “word” 表示， 垃圾 邮件 用 
“spam” 表 示 。 应 用 贝 叶 斯 公式 我 们 可 以 计算 出 ， 如 果 一 个 单词 出 现 ， 该 邮件 可 能 是 垃圾 
邮件 的 概率 : 





























p(word | spam)p (spam) 





spam | word) = 
| ) p(word) 


如 果 有 足够 多 的 已 经 做 好 标签 的 训练 数据 ， 这 个 等 式 右边 的 诸 项 都 很 容易 计算 出 来 。 具 
体 来 说 ， 如 果 用 “ham” 表 示 正 常 邮件 ， 那 么 我 们 只 需 计 算 几 个 概率 值 : pOword|spam). 
p(word|ham), p(spam) 以 及 p(ham) = 1 -p(spam)。 等 式 右 项 中 的 分 母 部 分 我 们 已 经 知道 怎 
么 算 了 (如果 不 会 ， 看 下 之 前 医学 检测 的 例子 ) : 





p(word) = p(word | spam)p (spam) + p(word | ham) p (ham) 
可 以 说 我 们 已 经 把 问题 简化 成 了 一 个 计数 的 问题 : 通过 计算 所 有 邮件 中 垃圾 邮件 的 比例 就 
可 以 得 到 概率 p(spam)， 然 后 在 所 有 的 垃圾 邮件 中 计算 某 一 个 特定 单词 出 现 的 频率 ， 我 们 
又 可 以 得 到 概率 p(wordlspam)。 更 进一步 ， 在 所 有 的 正常 邮件 中 计算 一 个 特定 单词 出 现 的 
频率 我 们 又 轻松 的 得 到 了 概率 p(word|ham)。 


大 功 告 成 ! 贝 叶 斯 公式 加 上 简单 的 计数 工作 解决 了 所 有 的 问题 ， 接 下 来 就 是 你 自己 动手 的 
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时 候 了 。 上 网 把 Enron 公司 的 电子 邮件 数据 下 载 到 你 的 个 人 电脑 上 (https://www.cs.cmu. 
edu/~enron/) ， 接 着 就 开始 动手 在 这 个 数据 上 搭建 一 个 垃圾 邮件 过 滤器 吧 ! 这 将 意味 着 我 们 
ZU Enron 公司 的 雇员 们 搭建 一 个 全 新 的 垃圾 过 滤 系 统 ， 这 个 系统 比 他 们 正在 使 用 的 现存 
过 滤 系 统 要 有 效 得 多 。 当 然 ， 我 们 会 根据 Enron 公司 对 于 垃圾 邮件 的 定义 来 设 定 关键 词 ， 
使 得 新 的 过 滤 系 统 更 适合 该 公司 的 需求 。( 这 也 意味 着 ， 如 果 从 2001 年 开始 ， 垃 圾 邮件 的 
制造 者 们 也 从 这 些 数 据 中 学 到 了 一 些 规 则 ， 他 们 就 会 在 发 送 垃圾 邮件 的 时 候 尽 力 规避 ， 那 
么 我 们 搭建 的 过 滤器 的 功效 可 能 就 要 大 打折 扣 了 。) 








我 们 可 以 用 bash 写 一 段 外 壳 脚 本 实现 这 个 功能 ， 记 得 Jake 之 前 就 是 这 么 干 的 。 该 段 代码 
的 功能 是 从 网 上 下 载 垃圾 邮件 数据 集 并 解压 缩 到 一 个 新 的 文件 夹 中 。 每 一 封 邮件 都 对 应 一 
个 文本 文档 ， 并 且 垃 圾 邮件 和 正常 邮件 应 该 置 于 不 同 的 文件 夹 中 以 便 区 分 。 


这 个 邮件 数据 库 中 的 某 些 统计 量 指 标 似乎 唾 手 可 得 。 比 如 ， 我 们 可 以 数 出 来 总 共有 1500 
封 垃 圾 邮件 和 3672 封 正 常 邮件 ， 因 此 p(spam) 和 p(ham) 的 概率 值 已 经 在 我 们 手中 了 。 使 
用 命令 行 工具 ， 我 们 可 以 进一步 在 垃圾 邮件 文件 中 计算 出 单词 “meeting” 出 现 的 次 数 : 

















grep -il meeting enroni/spam/*.txt | wc -l 





我 们 得 到 的 数值 是 16。 在 正常 邮件 文件 夹 中 重复 上 述 操作 ， 得 到 了 数值 153。 有 了 这 些 信 
息 便 可 以 轻易 地 计算 出 给 定 一 封 邮件 中 出 现 过 单词 “meeting”， 它 可 能 是 垃圾 邮件 的 概率 : 
B(spam) = 1500/ (1500 + 3672) = 0.29 

















p(ham) = 1 — 0.29 = 0.71 
p (meeting | spam) = 16/1500 = 0.0106 


p(meeting | ham) = 153/3672 = 0.0416 
p (meeting | spam) : p (spam) " 0.0106 - 0.29 = 9% 
p (meeting) (0.0106 - 0.29 + 0.0416 - 0.71) 


很 明显 我 们 根本 不 需要 一 个 复杂 的 程序 去 实现 上 述 简单 的 计算 操作 。 


接 下 来 让 我 们 尝试 一 些 别 的 单词 ， 应 用 贝 叶 斯 法 则 可 以 计算 出 如 果 一 圭 邮 件 中 出 现 了 个 音 
词 ， 该 邮件 可 能 是 垃圾 邮件 的 概率 。 下 面 是 一 些 计算 结果 ， 看 起 来 似乎 效果 不 错 。 





p (spam | meeting) = 








。 money (金钱 ) : 80% 
e vigra (伟哥 ) : 10096 
。 enron (安然 公司 名 ) : 096 


现在 模型 已 经 工作 了 ， 但 其 实 细 想 想 ， 因 为 我 们 使 用 了 Enron 公司 关于 垃圾 邮件 的 定义 ， 
模型 很 容易 过 拟 合 。 也 就 是 说 ， 对 于 该 模型 我 们 不 能 过 分 自信 ， 它 很 可 能 只 能 用 在 Enron 
公司 的 数据 上 。 比 如 说， 我 们 能 否 拍 胸 且 阅 ， 如 果 一 封 邮件 中 主要 出 现 “ 伟 可 ”这 一 单词 
就 铁定 是 一 封 垃 圾 邮件 呢 ? 肯定 不 能 ， 因 为 从 常理 上 来 说 ， 我 们 很 容易 写 一 封 正常 的 邮件 
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并 在 里 面 开玩笑 的 写 上 “伟哥 ”这 一 单词 。 同 样 的 道理 ， 我 也 可 以 编造 一 封 垃圾 邮件 ， 但 
只 要 在 其 中 添加 “enron” 一 词 ， 它 便 可 以 轻松 通过 我 们 刚刚 搭建 的 过 滤器 的 检查 了 。 











4.2.8 直通 朴素 贝 叶 斯 


现在 让 我 们 把 所 有 单词 的 信息 都 利用 起 来 ， 搭 建 一 个 真正 的 朴素 贝 叶 斯 模型 。 每 封 邮件 都 
可 以 表示 为 一 个 二 元 向 量 ， 这 个 向 量 的 第 7 个 元 素 是 0 还 是 1 取决 于 第 j 个 单词 是 否 出 现 
在 这 封 邮 件 中 (出现 为 1， 否则 为 0) 。 向 量 的 长 度 取决 于 总 共 要 考虑 的 单词 个 数 。 如 果 要 
考虑 所 有 在 邮件 中 出 现 过 的 单词 ， 那 么 这 个 向 量 必然 会 很 长 。 











此 时 模型 的 输出 值 就 是 在 给 定 一 份 邮件 的 标签 值 之 后 (也 即 知道 它 是 否 是 垃圾 邮件 之 后 )， 
这 封 邮件 所 代表 的 向 量 中 的 单词 一 起 出 现 的 概率 。 用 x 表示 一 封 邮 件 的 单词 向 量 ,x 表示 
向 量 中 的 某 个 元 素 ， 下 标 j 代表 某 个 单词 在 向 量 中 的 位 置 。c 代表 垃圾 邮件 ， 那 么 上 名 中 
的 概率 值 为 : 











p|) = [La 二 0 








式 中 的 9 代表 某 个 单词 在 垃圾 邮件 中 出 现 的 概率 。 上 一 市 我 们 已 经 阐述 了 如 何 用 计数 的 方 
法 得 到 这 个 概率 ， 此 处 我 们 假设 每 个 单词 在 垃圾 邮件 中 出 现 的 概率 都 已 经 计算 出 来 了 ， 因 
此 视 为 一 个 已 知 量 。 


朴素 贝 叶 斯 模型 的 核心 概念 是 独立 性 ， 这 也 是 为 什么 我 们 能 够 在 上 式 的 右边 使 用 连 乘 符号 
的 原因 : 因为 我 们 假设 单词 之 间 出 现 与 否 是 相互 独立 的 。 这 个 独立 性 假设 也 正 是 朴素 贝 叶 
斯 方法 中 “ 杆 素 ” 一 词 的 含义 。 这 个 假设 在 现实 中 是 很 难 成 立 的 ， 比 如 某 些 单词 会 倾向 于 
成 双 结 对 的 出 现 。 因 此 在 做 独立 性 假设 的 同时 ， 我 们 便 忽 略 了 这 种 可 能 同时 出 现 的 情形 。” 


回 到 刚才 的 等 式 中 ， 对 于 概率 连 乘 我 们 通常 会 在 等 式 两 边 取 对 数 ， 将 连 乘 转变 成 连 加 的 形 
X: 





























log(p(x | c) = Dsl * 2er - 8) 


Pa 
: 在 连 乘 项 中 如 果 存 在 很 多 接近 0 的 数值 很 可 能 会 导致 数值 计算 的 不 稳定 。 取 
p^ 。 对 数 丛 好 也 解决 了 这 个 问题 。 


SN 

















上 式 中 的 log (一 二 ) 与 闻 件 本 身 没有 关系 ， 而 只 取决 与 某 个 单词 本 身 的 性 质 。 我 们 可 以 把 


它 重 命名 为 wj。 同 样 假设 > logd — 0) = w ， 于 是 上 式 可 简化 为 : 
j 








注 4: 当然 ， 独 立 性 假设 还 排除 了 很 多 别 的 情形 ， 并 不 仅 限于 “单词 同时 出 现 ” 的 情况 。 
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log(p(x|c)) = X xw + wo 


式 中 唯一 跟 邮 件 本 身 有 关 的 就 是 x 了 ， 这 个 也 不 难 计算 。 


现在 我 们 终于 可 以 集合 所 有 得 到 的 信息 计算 px | o) 了 ， 然 后 贝 叶 斯 法 则 会 帮助 计算 出 我 们 
真正 想 知道 的 概率 值 p(c |x): 贝 叶 斯 公式 中 的 其 他 部 分 的 计算 ， 相 比 p(x | e) 都 较为 简单 。 
如 果 你 只 关心 一 封 邮件 更 有 可 能 是 垃圾 邮件 还 是 正常 邮件 ， 那 么 你 甚至 不 需要 计算 贝 叶 斯 
公式 中 的 其 他 部 分 ， 而 只 需要 计算 PCe |c)。 因 为 只 有 它 是 跟 邮 件 本 身 有 关 的 变动 项 。 


注意 到 没 ， 最 后 的 等 式 跟 线 性 回归 模型 的 等 式 十 分 类 似 。 唯 一 不 同 的 地 方 在 于 对 于 参数 wj 
的 估计 我 们 在 这 里 使 用 了 贝 叶 斯 公式 而 不 是 通过 计算 逆 矩 阵 。 


朴素 贝 叶 斯 模型 的 精度 很 高 ， 并 且 非 常 “实惠 ”。 如 果 已 经 准备 好 了 一 个 已 经 做 好 标签 的 
数据 集 ， 可 以 立即 上 马 朴素 贝 叶 斯 模型 ， 它 的 训练 非常 容易 。 即 便 是 过 让 成 千 上 万 封 邮 
件 ， 我 们 要 做 的 也 仅仅 是 在 垃圾 邮件 和 正常 邮件 中 数 一 数 单词 们 出 现 的 频率 。 如 果 有 更 多 
的 数据 ， 模 型 的 更 新 也 非常 得 迅捷 : 只 要 更 新 相应 单词 的 频率 就 可 以 了 。 在 实际 应 用 中 ， 
通常 会 有 一 个 简单 的 基础 模型 以 备 使 用 ， 我 们 要 做 的 就 是 在 这 个 模型 基础 上 加 以 改良 并 个 
性 化 地 运用 到 我 们 自己 手中 的 数据 上 。 所 以 ， 即 便 市 面 上 有 很 多 花 里 胡 哨 的 复杂 模型 ， 而 
我 们 不 妨 用 用 朴素 贝 叶 斯 这 样 简单 有 效 的 模型 。 


如 有 果 你 想 更 深入 地 了 解 贝 叶 斯 法 则 和 朴素 贝 叶 斯 模型 ， 以 下 是 一 些 不 错 的 参考 资料 : 









































e "Idiot's Bayes - not so stupid after all”( “给 笨蛋 的 贝 叶 斯 统计 学 : 其 实 没 有 那么 策 ”， 整 
篇 文章 都 在 论述 为 什么 贝 叶 斯 是 个 好 方法 ;参见 http:/goo.gl/sD86Oj) ; 

e “Naive Bayes at Forty: The Independence Assumption in Information” (“ARR ZERA N 
叶 斯 方法 : 信息 中 的 独立 性 假设 的 价值 "*， 参 见 http//goo.gl/JqjRg3) ; 

e "Spam Filtering with Naive Bayes - Which Naive Bayes?”(“ 垃 圾 邮件 过 滤 与 朴素 贝 叶 斯 
模型 一 一 什么 是 贝 叶 斯 统计 学 "， 参 见 http:/goo.gV74CxlZ) 。 


4.3 拉 普 拉 斯 平滑 法 

还 记得 刚才 的 0; 吗 ?” 它 代表 垃圾 邮件 中 某 个 单词 出 现 的 概率 。 仔 细 想 想 ， 它 无 非 就 是 一 个 
商 数 : 0 = njc/nce， 其 中 代表 在 该 垃圾 邮件 中 该 单词 出 现 的 总 次 数 ， 而 的 则 代表 在 所 有 
邮件 中 (包括 垃圾 邮件 和 正常 邮件 ) 该 单词 出 现 的 次 数 。 























拉 普 拉 斯 平滑 法 乍 看 起 来 相当 无 厘 头 : 








只 要 满足 nx 是 一 个 概率 值 (位 于 0 和 1 之 间 )，x 和 8 可 以 任意 取 值 。 比 如 ， 我 们 可 以 设 
定 a=1, p=10, 但 是 其 背后 的 道理 却 很 难 一 眼 就 看 出 来 。 其 实 拉 普 拉 斯 平滑 与 刚才 讲 到 的 
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朴素 贝 叶 斯 关系 相当 密切 。 如 果 在 相 素 贝 叶 斯 模型 中 加 入 先 验 信 息 ， 并 应 用 最 大 似 然 佑 计 
法 估计 参数 ， 拉 普 拉 斯 法 变 得 花哨 起 来 了 。 用 ML 表示 最 大 似 然 估计 法 ， 数 据 用 D 表示 ， 
那么 参数 的 最 大 似 然 估计 可 以 表示 为 : 





Ou = args110X0D(D | 0) 
而 刚才 我 们 提 到 的 2 = n/n 就 是 最 大 似 然 估计 的 结果 ， 它 的 含义 是 : 这 样 的 估计 最 有 可 
能 生成 这 样 的 数据 刀 。 朴 素 贝 叶 斯 中 最 关键 的 假设 条 件 就 是 “独立 性 假设 ， 如 果 该 假设 
在 这 里 仍然 成 立 ， 那 么 对 于 每 一 个 j 我们 都 可 以 分 别 用 一 个 0 最 大 化 其 相应 的 似 然 值 : 





log(6;^(1— 0)" ^) 
对 其 取 一 阶 导 并 令 为 0， 可 以 得 到 : 





0; = njcIne 
这 正 是 我 们 在 朴素 贝 叶 斯 模型 中 得 到 的 结果 。 这 意味 着 ， 如 果 “ 独 立 性 假设 ”成 立 ， 朴 素 
贝 叶 斯 中 0 的 估计 值 恰好 就 是 它 的 最 大 似 然 估 计 值 。 


如 果 加 上 先 验 信息 ， 结 合 似 然 函数 便 可 以 得 到 后 验 佑 计 值 ， 进 而 得 到 最 大 后 验 似 然 估计 
(MAP) : 




















0s» = argmax p(0 | D) 
这 相当 于 在 回答 这 样 一 个 问题 : 如 果 已 经 观测 到 了 所 有 数据 ， 哪 个 0 值 是 最 有 可 能 的 ? 
贝 叶 斯 法 则 在 这 里 起 到 了 关键 性 的 桥梁 作用 ， 它 把 估计 量 pu 与 p (D10)p CO) 紧密 地 联 
ATER: 它们 是 严格 地 正比 例 关 系 。 其 中 ，P(O) 称 作 “ 先 验 信息 ”， 通 常 我 们 要 人 为 地 
赋予 其 一 个 合理 的 概率 值 。 如 果 我 们 假设 0 服从 一 个 最 简单 地 Beta 4x8 0*11—0)^, 352.0 
的 最 大 后 验 估计 量 Oua 就 是 本 节 刚 开始 所 展示 的 拉 普 拉 斯 平 请 值 。 

















假设 的 先 验 分 布 合理 吗 


0 的 含义 是 : 如 果 邮 件 中 出 现 某 个 单词 那么 该 封 邮 件 可 能 是 垃圾 邮件 的 概率 。 假 设 它 
服从 一 个 Beta 分 布 ， 那么 只 要 a 和 都 大 于 0， 它 的 概率 分 布 在 0 和 1 两 侧 的 取 值 都 
接近 于 0。 我 们 说 过 ， 我 们 不 能 100% 地 确认 一 个 单词 的 出 现 就 代表 这 是 一 封 垃圾 邮 
件 ， 因 此 这 样 的 概率 分 布 假设 应 该 是 合乎 常理 的 : 在 垃圾 邮件 中 ， 几 乎 没有 单词 会 绝 
对 出 现 / 不 出 现 ， 我们 不 想 表 现 得 过 于 极端 。 


然而 ， 如 果 w& 和 采取 比较 大 的 值 ， 那 么 0 的 大 部 分 值 都 会 集中 在 其 分 布 的 中 间 部 分 。 
也 就 是 说 大 部 分 的 0 都 十 分 相近 。 从 垃圾 邮件 过 滤 的 角度 来 看 ， 大 部 分 的 单词 都 以 相 
似 的 概率 出 现在 垃 圾 邮件 和 正常 邮件 中 ， 这 似乎 不 是 一 个 合理 的 假设 ， 因 为 总 有 一 些 
单词 与 垃圾 邮件 的 关系 更 加 密切 。 











一 个 折 中 的 方法 是 把 a 和 设 定 为 一 个 很 小 的 正 值 ， 比 如 说 0.2。 这 样 我 们 的 模型 才 既 
不 会 过 于 极端 ， 也 不 会 过 于 平 良 。 对 于 先 验 信息 分 布 ， 规 矩 是 ， 数 据 量 愈 大 可 以 愈 发 放 
松 对 它 的 假设 。 因 为 ， 大 样本 量 代 表 的 似 然 函 数 部 分 的 效果 会 极 大 地 掩盖 先 验 信息 的 影 
响 ， 寻 致 我 们 没有 必要 在 先 验 信 息 的 分 布 上 大 动 干 筷 。 但 是 如 果 数 据 量 不 大 并 且 我 们 对 
先 验 信息 可 能 的 分 布 形态 比较 自信 ， 那 么 我 们 可 以 设 定 一 个 较为 主观 的 先 验 分 布 。 


4.4 ”对 比 朴素 贝 叶 斯 和 近邻 


在 刚才 的 模型 中 ，x 和 两 个 参数 通常 称 作 “ 超 参 数 ” 或 者 “ 伪 计 数 ”"。 数 据 科 学 家 对 选择 
什么 样 的 超 参数 值 具有 完全 的 自主 权 。 它 们 看 起 来 似乎 花哨 ， 但 只 要 从 后 验 分 布 的 角度 来 
分 析 其 实 也 十 分 简单 。 相 比较 而 言 ，k 近 邻 只 有 一 个 参数 需要 调整 近邻 的 个 数 k。 前 面 的 
讨论 中 ， 我 们 发 现 朴素 贝 叶 斯 的 终极 模型 形态 跟 线 性 回归 模型 十 分 相似 。 没 错 ， 它 确实 是 
一 个 线性 模型 (在 这 里 是 一 个 线性 分 类 器 )， 但 是 近邻 却 不 是 。k 近邻 模型 还 会 受到 “高 
维 诅 殴 ”的 挑 成 ， 而 朴素 贝 叶 斯 却 没 有 这 个 苦恼 。 大 近邻 的 方法 不 需要 加 以 训练 ， 拿 来 即 
用 ， 而 朴素 贝 叶 斯 模型 却 需要 多 加 以 训练 以 持续 改善 它 的 模型 效果 。 然 而， 它们 的 共同 之 
处 在 于 : 它们 都 属于 监督 性 学 习 模 型 : 在 建 模 之 前 我 们 已 经 知道 哪些 是 垃圾 邮件 而 哪些 是 
正常 邮件 。 也 就 是 说 ， 我 们 事先 已 经 知道 了 真理 ， 而 真理 监督 着 我 们 把 模型 做 好 。 


4.5 Bash 代 码 示 例 


4t! /bin/bash 

































































# 
# 文件 名 : enron naive bayes.sh 
# 








# 文件 描述 : 训练 一 个 简单 只 包含 一 个 单词 的 朴素 贝 叶 斯 垃圾 邮件 过 滤器 
# 使 用 的 是 安然 (Enron) 公司 提供 的 数据 集 

















# 

# usage: ./enron_naive_bayes.sh <word> 
# 

# 要 求 : 

# wget 

# 

# 作者 : jake hofman (gmail: jhofman) 

# 


# 如 何 使 用 这 段 代 码 
if [ $4 -eq 1] 
then 
word-$1 
else 
echo "usage: enron naive bayes.sh «word»" 
exit 
fi 
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# 如 果 文 件 不 存在 ， 则 去 网 上 下 载 得 到 
if ! [ -e enron1.tar.gz ] 
then 
wget 'http://www.aueb.gr/users/ion/data/ 
enron-spam/preprocessed/enron1.tar.gz' 
fi 





# 如 果 文 件 夹 本 身 不 存在 ， 解 压缩 刚才 得 到 的 .tar.9z 文件 
if ! [ -denronl ] 

then 

tar zxvf enroni.tar.gz 
fi 





# 切换 到 enron 目录 


cd enroni 





# 计算 得 到 总 垃圾 邮件 个 数 ， 总 正常 邮件 个 数 以 及 总 邮件 个 数 
Nspam= ls -l spam/*.txt | wc -l` 

Nham2'ls -l ham/*.txt | wc -l` 

Ntot=SNspam+SNham 


echo SNspam spam examples 
echo $Nham ham examples 


# 计算 得 到 垃圾 邮件 和 正常 邮件 中 包含 该 单词 的 邮件 个 数 
Nword spam-'grep -il $word spam/*.txt | wc -l` 
Nword hamz'grep -il Sword ham/*.txt | wc -l` 





echo $Nword spam "spam examples containing $word" 
echo $Nword ham "ham examples containing Sword" 


* 使 用 bash 里 的 bc 计算 器 计算 相关 概率 值 

Pspam-'echo "scale-4; $Nspam / ($Nspam+$Nham)" | bc' 
Phamz'echo "scale-4; 1-$Pspam" | bc^ 

echo 

echo "estimated P(spam) =" $Pspam 

echo "estimated P(ham) =" $Pham 


Pword spam-' echo "scale-4; $Nword spam / $Nspam" | bc^ 
Pword ham-z'echo "scale-4; S$Nword ham / S$Nham" | bc' 
echo "estimated P(Sword|spam) =" $Pword spam 

echo "estimated P(S$word|ham) =" SPword ham 

Pspam wordz' echo "scale-4; $Pword spam*$Pspam" | bc^ 
Pham word-' echo "scale-4; $Pword ham*$Pham" | bc' 
Pword-z'echo "scale-4; $Pspam word«$Pham word" | bc' 
Pspam wordz' echo "scale-4; $Pspam word / $Pword" | bc^ 
echo 


echo "P(spam|$word) =" $Pspam word 





# 返回 到 之 前 的 目录 
Ed 5 








4.6 网 页 抓 取 : API 和 其 他 工具 


作为 数据 科学 家 ， 数 据 并 不 总 是 现成 的 。 你 经 常 需要 自己 去 想 搜 集 数据 的 方法 ， 如 提出 
问题 ， 并 尝试 研究 和 解决 它 。API 就 是 采集 数据 的 工具 之 一 。API 全 称 是 “应 用 程序 编程 
接口 ”， 网 站 会 通过 API 为 开发 者 提供 网 站 使 用 的 数据 。 这 些 数据 通常 都 具有 固定 的 格式 
以 便于 后 期 处 理 。(API 的 用 处 还 有 很 多 ， 数 据 接口 只 是 其 中 一 小 部 分 。) 一 般 来 说 ， 使 用 
API 之 前 需要 注册 并 获取 一 个 “ 密 钥 ”。 密 钥 其 实 就 是 一 串 长 长 的 密码 ， 用 来 识别 你 已 经 注 
册 并 申请 使 用 API。 很 多 大 型 网 站 都 会 提供 API， 其 中 比较 著名 的 有 《纽约 时 报 》 的 官方 
网 站 (http://developer.nytimes.com/docs)。 














»»ow 





关于 使 用 API 的 警告 : 在 使 用 之 前 要 仔细 阅读 网 站 关于 API 使 用 的 条 款 细 
Aa 、 则 。 另 外 ， 一 些 网 站 对 API 的 使 用 设 定 了 诸多 限制 ， 包 括 你 能 获取 的 数据 类 
和 全， 型 以 及 免费 账户 的 访问 频率 等 。 


























API 数据 的 格式 多 种 多 样 ， 业 界 还 没有 统一 的 API 数据 格式 标准 ， 因 此 从 不 同 的 网 站 得 到 
的 数据 格式 可 能 不 尽 相 同 。 其 中 JSON 是 较为 常见 的 一 种 。 

幸运 的 是 ， 我 们 可 以 使 用 雅虎 的 YQL 语言 (http//developer.yahoo.com/yqU) 整合 不 同 的 
API 数据 格式 。 你 所 要 做 的 就 是 进入 雅虎 开发 者 网 络 ， 用 类 似 下 方 的 SQL 语法 抓 取 一 些 常 
见 网 站 的 API 数据 ，YQL 会 将 它们 整合 输出 成 统一 的 格式 。Python 可 以 识别 YQL 的 输出 
格式 并 一 次 性 读 取 所 有 的 数据 。 


select * from flickr.photos.search where text="Cat" 
and api_key="lksdjflskjdfsldkfj" limit 10 


这 是 标准 输出 ， 你 只 需要 在 Python 中 解析 一 次 。 
如 果 你 想 抓 取 的 网 页 没有 提供 API 那 该 怎么 办 呢 ? 


在 Firefox 火狐 浏览 器 中 有 一 款 名 叫 Firebug 的 插件 ， 它 能 够 完整 的 扫描 网 页 并 提取 网 页 
HTML 中 你 想 要 的 信息 。 技 术 上 来 看 ，Firebug 就 是 把 网 页 转换 成 了 可 供 浏 览 和 编辑 的 
HTML 文本 。 也 就 是 说 ，HTML 类 似 于 一 张 完整 的 网 页 地 图 ， 而 Firebug 就 是 你 的 导游 。 























当 你 在 HTML 文本 内 找到 想 要 的 内 容 之 后 ， 再 用 诸如 curl, wget, grep, awk, perl 等 编程 
工具 写 一 两 行 简短 的 代码 ， 想 要 的 东西 就 到 手 了 。 我 们 其 实 还 可 以 用 Python 或 者 了 把 上 
述 操 作 全 部 自动 化 。 


另外 还 有 一 些 不 错 的 文本 解析 工具 ， 此 处 我 们 提 及 几 个 。 


。 lynx 以 及 lynx--dump (http://lynx.browser.org/) 
如 果 你 比较 怀旧 ， 这 一 款 应 该 非常 适合 你 。 它 的 界面 还 保持 着 20 世纪 70 年 代 的 风格 。 
额 …… 也 许 没有 那么 久远 ,但 说 是 1992 年 的 风格 应 该 不 为 过 。 
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Beautiful Soup (http://www.crummy.com/software/BeautifulSoup/) 


非常 稳健 但 速度 很 慢 。 


Mechanize (http://mechanize.rubyforge.org/Mechanize.html 或 https://pypi.python.org/pypi/ 
mechanize/) 


此 球 非 常 酷 炫 ,但 是 不 支持 JaveScript, 


PostScript (https://en.wikipedia.org/wiki/PostScript) 
适用 于 图 像 解析 与 分 类 。 








思维 实验 : 图 像 识 别 
如 何 训练 计算 机 识别 一 张 照片 的 内 容 是 风景 照 还 是 人 物 肖 像 照 呢 ? 


首要 的 问题 是 ， 怎 么 才能 再 到 建 模 用 的 贴 好 标签 的 数据 呢 ? 如 已 经 有 了 这 些 照 片 ， 可 以 
雇 一 些 员工 ， 人 工 审核 这 些 照片 并 给 它们 贴 上 标签 。 这 似乎 不 太 现实 。 其 实 一 个 简单 的 
方式 是 从 flickr 网 站 (http://www.flickr.com/) 上 抓 取 一 些 已 经 被 用 户 贴 好 标签 的 照片 。 


取得 数据 之 后 ， 接 下 来 要 对 照片 进行 数据 预 处 理 。 每 张 照片 都 可 以 表示 为 一 个 RGB 
( 红 绿 蓝 ) 密度 直方 图 。 也 就 是 照片 中 的 每 一 个 像素 点 的 色彩 都 可 以 表示 为 该 点 的 三 原 
色 组 合 的 密度 值 。 红 绿 蓝 是 三 个 基本 色 (也 成 为 三 基色 或 者 三 原色 ) ， 其 中 每 个 颜色 的 
强度 大 小 都 可 以 用 一 个 介 于 0 和 255 之 间 的 数值 表示 。 而 所 有 的 颜色 都 可 以 表示 为 红 
绿 蓝 三 基色 的 某 个 特定 的 强度 组 合 ， 也 就 是 一 个 RGB 密度 直方 图 。 


一 个 图 像 可 以 有 三 个 密度 直方 图 ， 分 别 为 R、G 和 B; 对 应 于 红 、 绿 、 蓝 三 基色 在 该 
图 像 上 的 密度 分 布 。 因 为 255 是 个 较 大 的 数值 ， 传 统 的 直方 图 表示 会 变 得 较为 杂乱 。 
因此 我 们 可 以 用 块 状 直 方 图 替代 ， 这 样 我 们 需要 表示 的 密度 范围 就 缩减 为 0~51 了 。 也 
就 是 说 ， 一 张 图 像 可 以 表示 为 15 个 数值 ， 因 为 我 们 总 共 需 要 表示 3 种 基本 颜色 ， 而 每 
种 颜色 又 被 细 分 成 了 5 个 色 块 。 当 然 ， 我 们 在 这 里 假设 了 每 张 照片 的 像素 点 个 数 是 相 
同 的 。 


最 后 ， 我 们 可 以 使 用 大 近邻 模型 进行 分 类 。 比 如 说 ， 我 们 可 以 挑选 “ 蓝 色 ”作为 分 类 
RIF, 大 近邻 很 可 能 会 根据 蓝 色 分 布 上 的 不 同 将 风景 照 和 人 物 肖像 照 成 功 分 离开 来 。 








4.7 Jake 的 练习 题 : 文章 分 类 问题 中 的 朴素 贝 


叶 斯 模型 


该 题 的 主要 目的 是 把 朴素 贝 叶 斯 模型 应 用 到 一 个 多 标签 文本 的 分 类 问题 。 首 先 ， 利用 《 纽 
约 时 报 》 官 网 的 API 从 《纽约 时 报 》 网 站 的 不 同 栏目 中 抓 取 一 些 近 期 的 文章 ， 再 把 每 一 篇 
文章 转换 成 单词 向 量 。 我 们 的 模型 任务 是 : 给 定 一 篇 文章 的 单词 向 量 ， 预 测 这 篇 文章 可 能 














来 自 于 《纽约 时 报 》 的 哪 一 个 栏目 ? 现在 让 我 们 一 步 一 步 完成 这 项 任务 。 
第 一 步 ， 你 需要 去 《纽约 时 报 》 官 网 注册 ， 拿 到 “key” 之 后 就 可 以 获得 下 载 文 章 的 API 
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权限 了 。 事 先 仔细 阅读 一 下 API 的 使 用 须知 ， 了 解 基本 的 API 权限 ， 再 编写 程序 分 别 从 
“艺术 “商业 ”“ 计 告 ”“ 体 育 ” 和 “国际 ”等 5 个 栏目 中 下 载 2000 篇 最 近 一 段 时 间 发 表 
的 文章 。( 提 示 : 下 载 文章 时 一 定 要 注 明文 章 到 底 来 自 哪个 栏目 板块 ， 可 以 用 nytd_section_ 
facet 这 样 的 标签 值 以 示 区 别 。) 你 可 以 使 用 它们 提供 的 控制 台 快 速 地 了 解 一 下 该 APT 的 特 
性 。 编 写 代码 的 时 候 还 需要 注意 ， 来 自 于 不 同 栏目 的 文章 需 用 单独 的 文件 夹 存储 。 格 式 方 
面 ， 可 以 选择 制 表 符 定 界 格式 ， 并 在 第 一 列 上 存储 文章 的 URL， 第 二 列 上 存储 本 章 的 标 
题 ,第 三 列 上 存储 文章 的 正文 部 分 。 

下 载 和 整理 完 文章 的 数据 之 后 ， 请 编写 程序 实现 一 个 最 基本 的 朴素 贝 叶 斯 模型 。 所 有 的 文 
章 都 可 能 出 自 C 个 栏目 中 某 一 个 ， 用 y 表示 第 i 篇 文章 的 栏目 标签 ， 那 么 ye 0,1,2,…,C。 
比如 ,第 0 类 代表 “艺术 ”， 第 1 类 代表 “商业 ”…… 由 此 类 推 。 每 篇 文章 用 一 个 稀疏 的 
二 元 矩阵 六 表示 ，X, =1 则 代表 第 i 篇 文章 包含 第 j 个 单词 。 


先 要 通过 计数 估算 出 两 个 关键 参数 的 取 值 : 























2 | n.ta-l 
~ nt*atf-2 
ĝ. = 4 
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其 中 丸 .代表 c 栏 目 中 出 现 了 单词 j 的 文章 数 ，n, RE c 栏目 中 的 总 文章 数 , n 代表 所 有 的 
文章 数 。a 和 6 前 文 已 经 有 过 介绍 ， 它 们 是 拉 普 拉 斯 平滑 估计 中 的 两 个 “ 超 参 数 "。 有 了 这 
些 参数 的 估计 值 之 后 ， 就 可 以 给 文章 x 分 类 了 。 之 前 的 讨论 中 ， 我 们 已 经 推导 出 了 村 素 贝 
叶 斯 的 最 终 模 型 形态 ， 它 与 线性 回归 非常 相似 。 如 果 我 们 把 栏目 0 看 作 基 类 ， 那 么 很 容易 
计算 出 其 他 栏目 类 别 相 对 此 基 类 的 对 数 发 生 比 (log-odds) : 


PED ^ ^ 
os( 29519 = WjcXj + Woc 
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x 1— Ox , 0. 

Woe 2 m b, H log À, 
对 于 每 篇 文章 的 分 类 ， 模 型 代码 工作 的 流程 大 致 是 这 样 的 ,首先 读 取 每 篇 文章 的 标题 和 正 
文 ， 移 除 一 些 无 关 的 字符 (譬如 标点 符号 )， 文 本 内 容 分 词 化 并 过 滤 掉 一 些 停 用 词 。 该 流 
程 的 主要 目的 是 将 文本 中 对 于 分 类 有 用 的 词语 解析 并 存储 起 来 。 在 训练 模型 阶段 ， 这 些 解 
析 过 的 词语 特征 变量 ,联合 我 们 主观 设 定 的 a 和 8 值 ， 便 可 以 计算 出 分 类 模型 中 最 关键 的 
权重 参数 WwW。 模 型 训练 好 之 后 ， 一 篇 待 分 类 文章 (当然 每 篇 文章 都 需要 经 过 上 述 的 读 取 、 
移 除 、 分 词 和 过 滤 流 程 ， 以 得 到 一 样 的 词语 特征 变量 ) 的 词语 特征 变量 会 交 给 已 经 训练 好 
的 模型 ， 模 型 会 输出 对 应 每 个 栏目 类 别 的 后 验 概率 。 





w jc 二 log 
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通常 我 们 会 将 手中 的 数据 随机 分 成 两 半 ， 一 半 用 来 训练 模型 一 半 用 来 检测 模型 的 预测 效 








A: 包括 预测 准确 度 和 模型 运行 速度 。 因 为 a 和 6 的 设 定 较为 直观 ， 因 此 需要 根据 模型 在 











测试 集 上 的 预测 效果 不 断 调试 。 对 于 一 篇 文章 ， 模 型 会 给 出 每 个 类 别 的 后 验 概率 值 。 所 以 
我 们 会 把 具有 最 大 概率 值 的 类 别 分 配给 该 文章 。 模 型 的 分 类 效果 可 以 用 一 个 5x5 的 混淆 
和 矩阵 表示 。 单 词 的 分 类 能 力 以 及 文章 的 可 分 类 型 同样 也 非常 有 意思 ， 比 如 说 我 们 可 以 根据 














模型 的 预测 效果 列 出 “10 个 分 类 能 力 最 强 的 单词 ， 或 者 “ 






































“10 篇 最 难 分 类 的 文章 ”等 。 


如 有 果 把 刚刚 的 模型 应 用 到 其 他 数据 集 上 效果 会 如 何 呢 ? 比如 说 ， 应 用 到 《纽约 时 报 》 早 些 
时 候 的 文章 ， 或 者 是 其 他 报纸 的 文章 数据 等 ?这 称 作 模型 的 扩展 性 ， 你 可 以 思考 一 下 。 


使 用 《纽约 时 报 》 的 API: 


# 作者 : Jared Lander 

# 

# 用 硬 编码 写 的 API 请 求 

theCall <- "http://api.nytimes.com/svc/search/v1/ 
article?format-json&query-nytd section facet: 


[Sports]&fields-url,title,body&rank-znewest&offset-0 


&api-key-Your Key Here" 


# 此 处 我 们 需要 rjson, 
require(plyr) 
require(rjson) 
require(RTextTools) 


plyr 和 RTextTools 软件 包 


HE 首先 让 我 们 看 一 个 单独 的 API 请 求 
res1 <- fromJSON(file-theCall) 























length(res1$results) 

# 查看 第 一 项 

res1$results[[1]] 

# 第 一 项 的 标题 

resiSresults[[1]]Stitle 

# ap 名 一 个 结果 被 转换 成 了 数据 框 (data.frame), 
示 (使 用 View) 出 来 

d data.frame(resiSresults[[1]])) 


# 把 请 求 的 结果 转换 成 数据 框 的 形式 ， 该 数据 框 
resList1 <- ldply(resi$results, as.data.frame) 
View(resList1) 











HE 接 下 来 就 可 以 应 用 到 更 多 的 请 求 了 

# 创建 一 个 字符 串 用 来 替换 第 一 个 %s 和 补偿 第 二 个 %s 
theCall «- "http://api.nytimes.com/svc/search/v1/ 
article?format-json&query-nytd section facet: 
[Xs]&fields-url,title,body&rank-newest&offset-*s 
&api-key-Your Key Here" 

t 生成 一 个 空 的 列表 (st) 对 象 以 存储 3 个 请 求 的 记过 


resultsSports <- vector("list", 3) 





R 代 码 示 例 


并 且 可 以 在 R 的 数据 查看 器 中 方便 地 


应 该 是 10 行 3 列 


A 在 0 到 2 的 三 个 数值 中 循环 迭代 得 到 每 一 个 AIP 请 求 的 值 


for (i in 0:2) 








# 创建 一 个 查询 字符 串 ， 把 第 一 个 %s 替换 为 Sports 
# 把 第 二 个 %s BRAA iE 

tempCall <- sprintf(theCall, did $51) 
# 应 用 该 查询 操作 并 得 到 相应 的 json 返回 值 
tempJson <- fromJSON(file-tempCall) 

# 把 得 到 的 json 对 象 转换 成 一 个 10x3 的 数据 
# 并 保存 为 一 个 列表 对 象 

resultsSports[[i + 1]] <- ldply(tempJson$results, 
as.data.frame) 


} 

# 将 该 列表 对 象 转换 成 数据 框 

resultsDFSports <- ldply(resultsSports) 

# 创建 一 个 新 列 ， 以 表示 该 结果 来 自 于 Sports 栏目 
resultsDFSports$Section <- "Sports" 


Hb 上 述 操作 都 是 跟 对 Sports 栏目 的 ， 也 同样 可 以 应 用 到 arts (艺术 ) 栏目 
HE 此 处 的 代码 只 做 参考 

resultsArts «- vector("list", 3) 

for (i in 0:2) 

{ 











[FRI 





























tempCall «- sprintf(theCall, "Arts", i) 
tempJson <- fromJSON(file-tempCall) 
resultsArts[[i + 1]] <- ldply(tempJson$Sresults, 
as.data.frame) 


resultsDFArts «- ldply(resultsArts) 
resultsDFArtsS$Section <- "Arts" 


# 将 上 述 两 个 栏目 的 结果 整合 到 一 个 数据 框 中 

resultBig «- rbind(resultsDFArts, resultsDFSports) 
dim(resultBig) 

View(resultBig) 





Ht 现在 进行 “标记 化 ”(tokenizing) 操作 

ee (document-term matrix)， 别 除 其 中 的 数字 和 停 用 词 ， 提 
l'an 

doc matrix <- create matrix(resultBigS$body, language-"english", 

removeNumbers-TRUE, removeStopwords-TRUE, stemWords-TRUE) 

doc matrix 

View(as.matrix(doc matrix)) 




















# 此 处 分 别 创建 训练 和 测试 数据 集 

theOrder «- sample(60) 

container «- create container(matrix-doc matrix, 
labels-resultBigS$Section, trainSize-theOrder[1:40], 
testSize-theOrder[41:60], virgin-FALSE) 


KERTO ciiin 

近 十 分 热门 的 自然 语言 处 理 (NLP) 是 计算 机 科学 的 一 大 研究 前 沿 。 刚 刚 
ee A 域 研究 中 的 冰山 一 角 。 NLP 可 以 解决 的 问题 
很 多 ， 包 括 机 器 翻译 、 语 义 分 析 、 词 性 标注 以 及 文本 识别 等 。 其 中 的 机 器 翻 
译 ， 通 过 算法 将 一 种 语言 自动 且 实 时 的 翻译 成 另 一 种 语言 。 而 本 章 讨论 的 垃 
圾 邮件 过 滤 问 题 恰好 是 一 个 文本 识别 问题 。NLP 的 研究 甚至 可 以 追溯 到 20 
世纪 50 年 代 。 
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第 5 章 


逻辑 回归 





本 章 的 贡献 者 是 Brian Dalessandro, Brian 是 Media6Degree (M6D) 公司 分 管 数据 科学 部 
门 的 副 总 裁 ， 在 学 术 界 他 也 十 分 活跃 。 他 还 兼任 KDD 数据 科学 竞赛 的 联合 主席 。M6D 是 
一 家 从 事 在 线 广告 业务 的 创业 公司 ， 其 总 部 位 于 纽约 。 图 5-1 是 Brian 的 数据 科学 知识 构 
成 , y 轴 上 的 值 被 卡通 化 成 了 小 壬 (对 应 小 值 ) 和 摇滚 明星 (对 应 大 值 )。 











Brian Dalessandro 





Aesi 
数据 计算 数学 ”统计 机 器 领域 专 交流 
可 视 化 ”科学 学 习 ” 业 知识 ”技巧 











5-1: Brian 的 数据 科学 知识 构成 图 


Brian 曾 来 到 我 们 的 课堂 为 大 家 上 了 一 课 , 主要 内 容 是 逻辑 回归 和 评价 。 但 在 正式 开始 之 
前 ， 他 先 做 了 两 个 思维 实验 。 
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5.1 思维 实验 


(1) 如 果 “ 大 统一 理论 ” 真 的 成 立 ， 那 么 数据 科学 到 底 还 有 什么 特别 之 处 呢 ? 假设 “大 统一 
理论 ” 指 的 是 对 世界 上 万 事 万 物 运行 规律 的 普 适 解释 。 这 个 问题 引申 出 了 一 系列 问题 。 


。 如 果真 有 一 个 普 适 的 理论 ， 那 么 我 们 还 需要 研究 数据 科学 这 样 的 具体 学 科 吗 ? 

。 “大 统一 理论 ”有 没有 存在 的 可 能 性 ? 这 个 理论 如 果 存 在 ， 那 么 它 是 否 只 存在 于 某 一 
领域 ， 比 如 说 物理 学 ? 物理 学 是 关于 世界 如 何 运 转 的 学 科 ， 它 强调 精确 性 ， 比 如 说 
可 以 精确 预见 100 年 才 出 现 一 次 的 那 颗 彗 星 何 时 重 返 。 

。 如 果 这 个 理论 不 可 能 存在 ， 就 说 明 物 理学 和 数据 科学 是 有 本 质 区 别 的 ， 那 这 种 区 别 
是 什么 ? 

。 两 者 的 区 别 就 只 有 准确 度 这 一 项 吗 ? 或 者 更 广义 地 说， 我 们 所 能 想到 的 东西 ， 到 底 
有 多 少 能 分 别 用 这 两 种 理论 来 解释 ? 是 不 是 因为 我 们 在 预测 人 类 行为 时 ， 研 究 对 象 
的 行为 会 受到 预测 本 身 的 影响 ， 从 而 形成 了 一 种 反馈 回路 ? 

车 将 科学 看 作 一 个 统一 的 整体 ， 可 能 对 解答 上 述 疑 问 会 有 所 帮助 。 在 这 个 统一 体 中 ， 
精确 的 物理 学 处 于 最 右 端 ， 而 越 往 左 走 就 越 混 乱 一 一 研究 者 要 面 对 更 多 的 不 确定 性 
和 随机 性 (也 意味 着 更 高 的 薪水 )。 那 么 诸如 经 济 学 、 营 销 学 和 金融 学 这 些 学 科 又 在 
科学 体系 中 处 于 什么 位 置 呢 ? 
如 果 数 据 科学 像 物理 学 一 样 ， 已 经 有 一 套 业 成 熟 的 建 模 方式 ， 那 么 要 知道 人 们 在 何 
时 会 点 击 什 么 样 的 广告 ， 就 变 得 和 预测 火星 探测 器 何 时 着 陆 一 样 容易 。 鉴 于 此 ， 人 人 
们 目前 形成 了 普遍 共识 : 无 论 是 现在 还 是 未 来 ， 我 们 都 无 法 彻底 了 解 这 个 世界 。 

D 数据 科学 值得 称 作 “科学 ” 吗 ? 

不 要 低估 了 创意 的 力量 一 一 很 多 时 候 人 们 有 了 设想 ， 却 未 能 找到 实现 手段 。 而 作为 数据 

科学 家 ， 你 应 该 有 能 力 把 设想 转化 为 一 个 数学 模型 ， 这 个 模型 在 操作 上 会 具备 一 些 约束 

条 件 。 你 需要 明确 地 知道 问题 所 在 ， 快 速 测度 问题 的 方方面面 ， 并 且 对 它 进行 优化 。 而 

至 关 重 要 的 一 点 是 ， 在 建 模 完成 之 后 你 要 确保 这 个 模型 能 够 解决 最 初 提出 的 问题 。 














































































































数据 科学 中 也 是 讲究 艺术 的 ， 这 主要 体现 在 将 人 类 实际 问题 和 数学 语言 互 为 翻译 转化 的 
过 程 中 。 


经 验 告诉 我 们 ， 这 种 转化 问题 的 方式 是 没有 标准 答案 的 一 一 可 选 的 模型 总 是 不 止 一 种 ， 
相应 的 模型 评价 指标 也 有 很 多 ， 甚 至 连 最 优化 的 方法 都 有 很 多 选择 。 而 数据 科学 之 所 以 
称 作 科 学 一 一 给 定 原始 数据 、 限 制 条 件 和 问题 描述 一 一 其 恰恰 在 于 这 样 的 问题 总 是 没有 
绝对 普 适 的 答案 ， 我 们 需要 经 历 一 个 迷宫 一 样 的 过 程 才能 找到 一 个 可 能 的 最 优 解 。 每 一 
种 方案 的 选择 都 可 以 被 视 作 一 种 假设 ， 你 需要 具备 利用 精确 的 测试 和 实验 方法 来 检验 
( 验 真 或 者 证 伪 ) 这 些 假设 的 能 力 。 
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这 样 一 种 假设 和 检验 的 循环 往复 的 过 程 给 “数据 科学 ” 深 深 地 烙 上 了 “科学 ”的 印记 。 

具体 来 说 ， 其 “科学 ”的 一 面 主要 体现 在 下 面 三 点 。 

。 如 果 你 找到 了 一 个 最 优 的 模型 ， 坚 持 使 用 它 ! 

。 如 果 你 有 一 个 新 主意 ， 把 它 与 你 之 前 的 最 优 模型 进行 比较 。 通 常 ， 你 需要 思考 一 下 
如 何 设计 好 一 对 比较 实验 。 

。 在 能 够 100% 确定 之 前 ， 不 停 地 实验 (但 也 要 尽量 避免 过 拟 合 )。 


5.2 ”分 类 器 

丁 的 重点 是 如 何 选择 一 个 好 的 分 类 器 。 分 类 器 也 就 是 分 类 模型 : 给 定 一 些 数据 ， 它 可 以 
输出 数据 对 应 的 某 个 类 别 或 者 是 某 些 类 别 的 概率 值 。 上 一 章 我 们 讲 到 的 朴素 贝 叶 斯 模型 以 
及 大 近邻 都 属于 分 类 器 的 一 种 。 表 5-1 中 列 出 了 一 些 需要 分 类 器 的 常见 情形 。 


表 5-1: 分 类 器 的 例子 : 想 要 回答 的 问题 以 及 答案 的 形态 



































问 题 答 案 

用 户 会 点 击 这 条 广告 吗 1 或 者 0 (会 或 者 不 会 ) 
这 个 图 像 是 哪个 数字 0, 1, 2，… 

这 条 新 闻 可 能 出 自 哪个 栏目 “体育 ” “政论 ”等 

这 是 一 封 垃圾 邮件 吗 1 或 者 0 

这 个 药 治 疗 头疼 有 效 吗 1 或 者 0 


让 我 们 先 讨 论 以 下 最 简单 的 分 类 器 : 二 元 分 类 器 (输出 值 为 0 或 者 1)。 








本 章 讨论 的 模型 叫 作 逻辑 回归 ， 其 他 的 … 二 元 分 类 模型 还 包括 决策 树 (第 7 章 )、 随 机 森 
Wk (第 7 章 )、 支 持 向 量 机 以 及 神经 网 络 等 (本 书 没有 涉及 )。 问 题 的 背景 是 ， 给 定 一 些 数 








据 和 一 个 来 自 真 实 世 界 的 分 类 问题 ， 你 需要 决定 : 


(1) 使 用 哪 一 个 分 类 器 ， 

D 应 用 何 种 优化 方法 训练 分 类 器 ， 
(3) 选择 什么 样 的 损失 函数 ， 

(4) 哪些 特征 变量 对 建 模 有 用 ， 
(5) 如 何 评估 模型 的 实际 效果 。 


我 们 先 讨论 第 一 个 问题 : 既然 有 这 么 多 的 分 类 器 可 以 使 用 ， 那 么 我 们 到 底 应 该 选择 哪 一 个 
WE? 一 个 自然 的 想法 是 ， 每 一 个 都 尝试 一 下 ， 然 后 从 所 有 的 备 选 模 型 中 选 出 一 个 最 好 的 。 
这 样 的 笨 办 法 是 不 可 取 的 ， 因 为 在 现实 问题 中 总 是 有 各 种 各 样 的 限制 条 件 ， 比 如 数据 量 有 
HR, 或 者 时 间 有 限 等 。 我 们 没有 条 件 做 大 海 榜 针 的 工作 。 模 型 选择 的 问题 往往 不 受 重视 ， 
人 们 以 为 总 是 可 以 在 众多 模型 中 找到 一 个 适用 的 模型 ， 其 实 不 然 。 下 面 我 们 就 讨论 一 下 现 
实 问题 中 一 些 常见 的 限制 条 件 。 



































94 | 第 5 章 


5.2.1 运行 时 间 

在 M6D 公司 ， 我 们 每 天 要 更 新 500 个 决策 模型 ， 因 此 我 们 格外 重视 模型 的 运行 和 更 新 速 
度 。 这 里 的 速度 ， 指 的 不 仅仅 是 更 新 一 个 模型 的 速度 ， 还 包括 模型 真实 的 应 用 速度 。 后 者 
我 们 通常 称 为 模型 的 “运行 时 间 ”， 它 通常 比 前 者 要 更 加 重要 。 








某 些 模 型 需要 大 量 的 “运行 时 间 ”， 比 如 说 近邻 模型 ， 当 模型 数据 空间 很 大 时 ， 预 测 一 
个 新 数据 的 类 别 需 要 计算 这 个 数据 点 的 个 “邻居 ”"， 因 此 需要 把 所 有 的 新 旧 数 据点 都 存 
储 在 内 存 中 ， 这 通常 会 耗费 大 量 的 “运行 时 间 ”。 


而 线性 模型 则 不 然 ， 无 论 是 模型 更 新 还 是 用 作 实 际 预测 ， 它 的 速度 通常 都 令 人 满意 。 下 一 
瘟 你 将 看 到 ， 线 性 模型 的 更 新 过 程 只 涉及 新 的 数据 ， 因 此 不 需要 把 旧 的 数据 也 放 在 内 存 
中 ， 这 极 大 地 提高 了 模型 的 运行 速度 。 一 旦 线性 模型 的 参数 估计 完毕 ， 只 需要 保存 这 些 参 
数 的 估计 值 ， 预 测 新 数据 只 涉及 计算 参数 估计 向 量 与 新 数据 特征 变量 的 点 积 的 问题 。 









































5.2.2 ”你 自己 
有 一 个 限制 条 件 常常 被 我 们 忽视 ， 那 就 是 我 们 自己 ! 在 应 用 模型 分 析 数 据 的 时 候 ， 要 不 时 
地 拷问 自己 ， 是 不 是 真 的 理解 你 正在 使 用 的 模型 。 


























在 这 一 点 上 ， 我 们 要 诚实 一 点 。 如 果 不 理解 也 没有 关系 ， 因 为 没有 人 能 理解 所 有 的 模型 ， 
这 也 并 不 是 成 为 一 个 数据 科学 家 的 必要 条 件 。 但 是 通常 来 说 ， 如 果 你 想 发 挥 一 个 模型 的 最 
大 效用 ， 必 须 全 面 理解 这 个 模型 ， 了 解 模型 参数 的 含义 、 模 型 的 假设 条 件 等 方方面面 。 有 
时 ， 你 需要 调整 模型 算法 来 拟 合 自己 的 数据 。 由 于 未 能 透彻 理解 手中 的 模型 ， 人 们 经 常 不 
知 不 觉 就 陷入 了 过 拟 合 的 陷阱 。 


5.2.3 ”模型 的 可 解释 性 

商用 模型 需要 具备 良好 的 可 解释 性 ， 不 然 客 户 不 会 买账 。 有 些 模型 天 生 可 以 说 故事 ， 比 如 
决策 树 模 型 ， 而 有 些 模型 则 是 个 黑匣子 ， 你 根本 不 知道 里 面 发 生 了 什么 ， 比 如 随机 森林 模 
型 。 即 便 随 机 森林 只 是 决策 树 模型 的 一 个 推广 ， 在 可 解释 性 方面 却 有 天 壤 之 别 。 复 灯 的 模 
型 通常 都 很 难 解释 ， 因 此 如 果 你 没有 足够 的 时 间 去 解释 一 个 复杂 模型 的 结果 ， 可 以 考虑 由 
牲 一 些 准确 度 ， 把 模型 稍 作 简 化 。 


一 个 典型 的 例子 就 是 信用 评分 模型 。 法 律 规定 ， 信 用 卡 公司 如 果 拒 绝 一 个 信用 卡 申 请 ， 必 
须 给 出 充分 的 理由 。 因此 在 信用 评分 模型 中 ， 决 策 树 模型 要 比 随 机 森林 模型 更 加 适用 。 法 
律 没 有 规定 所 有 的 模型 都 要 具有 很 好 的 解释 性 ， 但 如 果 能 把 模型 很 好 地 解释 给 同事 或 者 客 
户 ， 何 乐 而 不 为 呢 ? 
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5.2.4 可 扩展 性 
制约 模型 可 扩展 性 的 是 模型 的 成 本 ,现实 中 会 考虑 以 下 三 方面 的 成 本 。 


(1) 学 习 时 间 : 也 就 是 模型 的 训练 时 间 。 

D 得 分 时 间 : 也 就 是 模型 的 预测 时 间 ， 给 定 一 个 数据 和 已 经 训练 好 的 模型 ， 新 用 户 要 多 
久 才 能 得 到 一 个 预测 值 ? 

(3) 模型 存储 : 模型 运行 时 要 占用 多 大 的 内 存 ? 





“An Emprical Comparison of Supervised Learning Algorithms”( ”监督 学 习 算 法 的 比较 研究 : 
基于 实证 的 观点 ”，http://goo.gl/bLpoea) 是 一 篇 关于 算法 比较 的 很 好 的 文章 ， 读 一 读 你 会 
学 到 以 下 几 点 。 


。 模型 的 复杂 程度 经 常 与 它 的 精度 成 正比 。 简 单 的 模型 可 能 具有 更 好 的 可 解释 性 ， 但 可 能 
不 会 有 令 人 满意 的 预测 精度 。 

。 没有 万 能 算法 ， 每 个 问题 都 要 根据 其 自身 的 特点 选择 最 适合 的 模型 。 

。 诸多 条 件 会 限制 着 你 对 可 用 算法 的 选择 ， 包 括 数据 量 大 小 ， 项 目 成 本 和 时 间 成 本 等 。 


5.3 ZEE: 一 个 来 自 M6D 的 真实 案例 研究 


在 M6D，Brian 和 他 的 团队 了 亚 须 解决 以 下 三 个 核心 问题 。 

















(D 特征 工程 : 找 出 最 有 用 的 特征 变量 并 且 知 道 如 何 正 确 处 理 和 使 用 它们 。 

(2) 交互 预测 : 模型 需要 具备 迅速 的 用 户 响 应 能 力 ， 用 户 鼠 标 按 下 的 一 瞬间 ， 模 型 要 即时 
地 预测 和 输出 。 

(3) 精准 定价 : 若 给 定 广告 能 够 向 目标 用 户 展示 ， 可 以 产生 多 大 价值 ? 








5.3.1 点 击 模型 

对 于 M6D 公司 来 说 ， 工 作 的 核心 就 是 根据 客户 的 要 求 找到 广告 的 最 佳 受众 。 也 就 是 说 ， 
他 们 需要 计算 在 电脑 前 点 击 鼠 标的 你 ， 有 多 大 的 可 能 点 击 他 们 所 要 展示 的 广告 。 那 么 对 于 
这 样 一 种 商业 模式 ， 需 要 分 析 什 么 样 的 数据 呢 ? 他 们 应 该 如 何 使 用 模型 来 提高 广告 的 点 击 
度 呢 ? 





M6D 会 追踪 客户 访问 的 每 一 个 网 页 ， 但 是 数据 科学 家 并 不 会 挨个 分 析 网 页 的 具体 内 容 ， 而 
只 需要 知道 网 页 对 应 的 URL 地 址 。 他 们 会 将 这 些 地 址 表示 为 一 些 随 机 的 字符 串 ， 随 着 用 
户 的 网 页 访问 历史 不 断 积累 ， 这 些 字符 串 会 累积 成 一 个 字符 串 向 量 ， 代 表 用 户 访问 的 完整 
BE., Simik HP u 在 一 段 时 间 内 访问 了 四 个 网 页 ， 那 么 可 以 用 下 面 的 字符 串 表 示 他 的 
URL 访问 历史 : 











u = «&ltfxyz, 123, sdqwe, 13ms&gtg> 
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其 中 每 个 子 字符 串 都 代表 其 访问 过 的 某 个 网 页 的 URL。 如 果 每 个 用 户 的 访问 历史 都 用 这 样 
的 字符 串 向 量 表 示 ， 那 么 全 部 用 户 的 访问 历史 可 以 合并 成 一 个 巨大 的 矩阵 : 矩阵 的 行 代表 
用 户 ， 列 代表 其 访问 过 的 网 站 。 如 果 甜 阵 的 某 个 元 素 值 为 1， 则 代表 相应 的 用 户 访问 过 相 
应 的 网 页 。 可 以 想象 ， 这 样 的 一 个 矩阵 将 会 十 分 稀 玻 ， 也 就 是 说 ， 会 有 大 量 的 0 值 存 在 。 
这 是 因为 网 站 访问 是 一 个 非常 个 性 化 的 行为 ， 每 个 人 访问 过 的 网 页 都 不 尽 相同 。 


如 有 果 这 个 数据 是 被 用 作 一 个 分 类 的 问题 ， 我 们 至 少 需要 一 个 分 类 变量 作为 被 解释 变量 。 对 
于 点 击 模型 来 说 ， 可 以 假设 有 一 条 卖 鞋 的 广告 ， 而 我 们 想 要 分 析 人 们 是 否 点 击 了 此 条 广 
告 。 此 处 的 分 类 变量 就 是 该 条 广告 是 否 被 用 户 点 击 过 ， 它 是 一 个 二 元 变量 值 ，1 代表 被 某 
用 户 点 击 过 ，0 则 表示 没有 被 该 用 户 点 击 。 当 我 们 设 定好 一 个 被 解释 变量 之 后 ， 加 上 之 前 
已 经 处 理 好 的 稀 琉 特征 和 矩阵， 数据 的 准备 工作 就 完成 了 。 换 句 话 说 ， 一 个 训练 数据 集 已 经 
准备 完毕 。 

接 下 来 的 任务 就 要 交 给 科学 家 了 : 搭建 模型 、 在 数据 集 上 训练 模型 等 。 第 3 章 的 垃圾 邮件 
过 着 例子 中 ， 训 练 数据 集 中 的 特征 变量 是 单词 。 有 具体 说 来 ， 那 里 是 代表 单词 是 否 出 现在 某 
封 邮 件 中 的 一 个 二 元 变量 ， 因 此 当时 的 模型 并 不 关心 单词 的 真实 含义 。 现 在 ， 你 可 以 依赖 
已 为 垃圾 邮件 检测 构建 好 的 算法 。 


此 处 的 情形 其 实 十 分 相似 ， 我 们 并 不 关心 某 个 网 页 的 真实 内 容 ， 而 只 关心 用 户 是 否 访问 了 
该 网 页 。 因 此 朴素 贝 叶 斯 模型 也 同样 适用 。 然 而 ， 还 有 另外 一 个 模型 也 同样 适用 于 该 情 
形 ， 那 就 是 逻辑 回归 模型 ， 它 是 本 章 的 绝对 主角 | 


一 言 以 项 之 ， 逻 辑 回归 的 输出 值 是 用 户 点 击 某 广告 的 概率 值 。 这 和 朴素 贝 叶 斯 模型 的 输出 
值 如 出 一 斩 。 因 此 ， 在 得 到 模型 的 概率 输出 值 之 后 ， 由 你 决定 输出 的 值 到 底 应 该 是 1 还 是 
0。 此 处 的 惯用 手法 是 设 定 一 个 国 值 〈 比 如 说 0.75) ， 只 要 输出 的 概率 值 大 于 此 阔 值 则 输出 
1， 否 则 输出 0。 这 种 输出 方法 与 传统 的 线性 回归 模型 有 着 本 质 的 不 同 : 传统 的 线性 回归 模 
型 会 输出 任何 一 个 介 于 负 无 穷 和 正 无 穷 之 间 的 实数 值 ， 而 逻辑 回归 的 输出 值 是 实 实在 在 的 
概率 值 ， 它 位 于 0 和 1 之 间 。 因 此 可 以 说 逻辑 回归 是 为 了 分 类 模型 而 生 的 模型 。 




























































































前 一 音 已 经 提醒 过 大 家 ， 如 有 果 你 生 搬 硬 套 地 使 用 传统 线性 回归 模型 ， 比 如 说 你 把 数据 交 给 
R, R 会 义无反顾 地 输出 模型 的 结果 而 不 管 你 使 用 的 模型 是 否 合适 。 线 性 回归 模型 的 输出 
值 并 不 是 一 个 概率 值 ， 你 可 能 会 得 到 一 个 小 于 0 的 值 ， 或 者 是 一 个 大 于 1 的 值 。 


5.3.2 ”模型 背后 


逻辑 回归 的 微妙 之 处 就 在 于 输出 值 是 介 于 0 和 1 之 间 的 概率 值 ， 那 么 到 底 为 什么 这 样 呢 ? 
在 这 里 ， 我 们 把 模型 背后 的 数学 稍 作 呈现 ， 希 望 可 以 加 深 读者 对 逻辑 回归 的 认识 。 唯 一 的 
奥妙 就 在 于 ， 数 据 的 特征 抢 阵 被 某 一 个 神奇 的 国 数 巧妙 地 转换 成 了 一 个 严格 位 于 [0, 1] 之 
间 的 数值 ， 那 么 这 到 底 是 一 个 什么 样 的 函数 呢 ” 从 微 积 分 的 角度 来 看 ， 我 们 需要 找 一 个 函 
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数 ， 其 定义 域 为 全 体 实数 ， 而 值 域 为 [0, 1]。 反 逻辑 函数 (inverse-logit function). 就 是 这 样 
一 个 函数 。 下 式 是 该 函数 的 表达 形式 ， 图 5-2 是 该 函数 的 图 像 : 
pÀ = logit (t) = —— = —— 
LFE l-te 

















5-2: 反 逻 辑 函 数 图 





逻辑 函数 与 反 逻 辑 函 数 


逻辑 水 数 的 定义 域 是 [0, 1] ， 而 其 值 域 为 整个 实数 集 。 用 万 表示 函数 的 变量 ， 则 还 辑 函 
数 可 以 表示 为 : 


logit(p) = log( TE) = los) -iogd p 


MESL, KZA HALAZ ARA AA, BALALAIKA, om dh 
域 为 [0, 1]. 











从 函数 的 表达 式 来 看 ,1 值 越 大 6 值 越 小 ， 因 此 分 母 越 接 近 于 1, p) 也 越 接近 于 1。 同 
EE, ERD, M e ” 越 大 ， 因 此 分 母 的 值 也 越 大 ，P(D) 越 接近 于 0。 这 样 的 一 个 反 逻 辑 函 数 
是 逻辑 回归 的 灵魂 。 当 然 ， 真正 的 逻辑 回归 表达 式 也 比 函 数 本 身 要 复杂 一 点 : 











P(e | x) = [logit™! (a 十 Ex] ^. [1 — logit™'(g + Px] 


XB. c 代表 分 类 变量 (被 解释 变量 ) 的 标签 值 (点 击 为 1， 没 有 点 击 则 为 0), x; 是 用 户 i 
的 特征 变量 。 注 意 ，c 是 一 个 二 元 变量 值 ， 当 其 取 1 时， 上 式 可 简化 为 : 




















1 


区 二 条 局 二 一 上 
Ee e 9*9 xj) 


= logit (æ + ff xj) 


同 理 ， 当 其 取 值 为 0 时; 
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P(c 2 0|x) = 1 — logit (e + fx) 
对 上 面 两 种 简 式 作 商 ， 可 以 得 到 类 似 线性 模型 的 表达 式 : 


P(ci = 1 |x) 


lo 
S31 — P(e =1|x) 


— qt ff x 





也 可 以 用 刚才 提 到 的 逻辑 函数 来 表示 ， 那 么 模型 的 最 终 形式 为 : 


logit(P(c; = 1|x) = a + E xi 

















如 果 你 觉得 我 们 是 在 绕 圈 圈 ， 那 么 你 的 感觉 是 对 的 ! 绕 圈 圈 的 目的 是 告诉 你 ,逻辑 回归 的 
最 终 形式 可 以 巧妙 地 转化 成 线性 模型 的 形式 ， 而 模型 的 输出 结果 却 被 限制 在 了 0 和 1 之 间 。 
有 了 上 面 的 最 终 表达 形式 ， 我 们 便 可 以 给 逻辑 回归 一 个 明确 的 定义 了 : 对 于 点 击 模型 来 
说 ， 用 户 点击 卖 鞋 广告 的 逻辑 概率 可 以 用 该 用 户 网 页 访问 历史 的 特征 变量 (也 就 是 之 前 
对 URL 预 处 理 得 到 的 稀 玻 矩阵 ) 的 线性 组 合 来 表示 。 





















































模型 中 的 a 称 作 基准 值 ， 也 就 是 在 对 用 户 的 访问 行为 一 无 所 知 的 情况 下 对 用 户 点 击 广告 概 
率 的 无 条 件 猿 测 。 从 均值 的 含义 来 理解 ， 它 代表 了 用 户 群体 点 击 广告 的 平均 概率 值 。 因 为 
我 们 其 实 对 此 知之 其 少 ， 所 以 它 的 值 一 般 都 很 小 ， 通 常 近似 1%。 从 概率 论 的 角度 来 看 ， 
它 代表 无 条 件 概率 值 。 


如 果 你 不 了 解 自己 的 特定 情况 ， 只 知道 基准 值 ， 那 么 预测 值 的 均值 只 与 a 相关 : 


1 
1+e” 











P(ci — Dy 





而 有 8 是 模型 的 斜率 值 ， 它 一 般 是 一 个 向 量 ， 甚 长 度 和 模型 的 特征 变量 个 数 相 同 。8 向 量 中 
的 每 一 个 值 都 代表 了 相应 特征 变量 对 模型 输出 概率 值 的 相对 贡献 程度 。 


5.3.3 a 和 6 的 参数 估计 

在 应 用 模型 预测 之 前 ， 首 先 要 估计 模型 中 的 参数 a 和 8。 传统 线性 回归 中 的 参数 估计 方式 
并 不 适用 于 逻辑 回归 ， 因 为 逻辑 回归 的 似 然 函 数 的 最 大 化 问题 没有 解析 解 ， 不 能 通过 传统 
的 求 导 方 式 解 决 。 但 是 ， 由 于 其 似 然 函 数 是 一 个 典型 的 凸 函数 ， 因 此 可 以 用 凸 优化 的 方法 
找到 最 优 解 。 


























H ORR a 和 的 参数 组 合 , 工 代表 模型 的 似 然 函 数 ， 则 有 : 
L(O | Xi, Xo,--., Xn) = P(X | 0) = P(X | 6): nas -P(Xn | 6) 


此 处 我 们 假设 数据 点 也是 相互 独立 的 ，i = 1,…, n 代表 每 一 位 用 户 。 这 里 的 独立 性 假设 表 
明 一 位 用 户 的 点 击 行为 与 另外 一 位 用 户 毫 不 相干 一 一 在 这 里 的 例子 中 ， 用 户 的 “点 击 行 
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为 ” 指 的 是 用 户 的 “点 击 概率 ”。 


该 假设 虽然 并 不 代表 真实 情形 ， 但 通常 来 说 是 可 以 被 接 








受 的 。( 在 上 式 中 ， 我 们 之 所 以 将 似 然 函 数 写成 概率 密度 函数 连 乘 积 的 形式 也 是 因为 独立 


性 假设 。) 








给 定 了 数据 之 后 ， 我 们 需要 找到 一 组 a 和 有 最 大 化 上 面 的 似 然 国 数 。 观 察 数据 可 知 : 


Our — argmaxo lE P(Xi | O) 


Sp = ul tat), 
P(X; | 0) 为 : 


假设 独立 性 假设 成 立 ， 那 么 参数 的 最 大 似 然 估 计 可 以 写作 : 














c 


1-6, 
Pieüu-p) ' 


Omur = argmaxe IE př: (1 —p) 


那么 现在 的 问题 是 ， 如 何 最 大 化 似 然 函 数 呢 ? 


其 代表 某 一 个 观测 值 的 概率 值 ， 那 么 一 个 数据 点 的 概率 密度 


1-cj 


对 于 线性 回归 来 说 ， 可 以 应 用 微 积 分 中 的 极 值 定理 找到 能 够 最 大 化 似 然 函 数 的 参数 组 合 : 
分 别 对 a 和 B 取 一 阶 导数 并 令 其 为 0， 然 后 检查 相应 的 二 阶 偏 导数 是 否 小 于 0。 然 而， 对 
于 逻辑 回归 来 说 这 招 却 是 行 不 通 的 。 这 下 该 如 何 是 好 呢 ? 解决 办 法 是 有 的 : 先 把 似 然 函 数 
写成 对 数 似 然 函 数 ， 因 为 对 数 函 数 是 一 个 单调 递增 函数 ， 








化 对 数 似 然 函 数 。 然 后 在 对 





因此 最 大 化 似 然 函数 等 同 于 最 大 





[ 数 似 然 国 数 前 取 负 号 ， 得 到 负 对 数 似 然 国 数 。 这 样 我 们 就 把 一 


个 最 大 化 问题 变 成 了 一 个 最 小 化 问题 。 取 负 号 是 因为 负 对 数 似 然 函数 是 一 个 凸 函 数 ， 因 此 
可 以 用 凸 优化 的 方法 找到 最 小 化 负 对 数 似 然 函 数 的 最 优 解 ， 也 就 是 我 们 想 要 的 参数 组 合 a 


fil B. 


凸 优化 是 一 个 较为 成 熟 的 研究 领域 ， 有 很 多 现成 的 算法 可 以 使 用 ， 我 们 需要 决定 到 底 使 用 
哪个 算法 。 接 下 来 我 们 将 介绍 其 中 两 种 较为 常见 的 。 通 常情 况 下 ， 这 两 种 方法 都 可 以 收敛 
通常 情况 ” 指 的 是 数据 的 变量 之 间 相 互 独立 ， 从 而 保证 优化 过 程 
中 的 海 塞 和 矩阵 (Hessian matrix). 满足 其 正定 性 条 件 。 


到 全 局 最 优 解 。 这 里 的 “ 

















oa 
wo] 关于 最 大 似 然 估计 
人 4、 刚才 的 似 然 











推断 》) 一 


函数 部 分 我 们 讲 得 可 能 太 快 了 。 如 果 你 对 最 大 似 然 估 计 很 感 兴 











， 趣 ， 我 们 建议 你 翻 一 翻 Casella 和 Berge 合 著 的 Statistical Inference (《 统 计 


攻 。 如 果 你 对 其 中 涉及 线性 代数 的 部 分 感到 吃力 ， 我 们 建议 你 把 
Gilbert Strange 教授 的 著作 Linear Algebra and Its Applications. (《 线 性 代数 及 
其 应 用 》) 仔细 研读 一 番 。 





5.3.4 牛顿 法 

微 积分 中 的 牛顿 法 是 函数 优化 的 经 典 方法 ， 我 们 可 以 尝试 用 它 找到 对 数 似 然 函数 的 全 局 最 
优 解 。 在 微 积分 中 ， 我 们 知道 一 个 函数 的 泰勒 展开 式 的 前 几 项 可 以 很 好 地 近似 该 函数 本 
身 ， 牛 顿 法 就 是 基于 此 原理 。 


具体 来 说 ， 我 们 定义 VO 为 函数 的 局 部 梯度 值 (也 就 是 在 某 点 上 的 一 阶 导 数 ) ， 瓦 表示 海 
塞 矩 阵 〈 也 就 是 国 数 的 二 阶 导 数 和 矩阵 ) ， 那 么 牛顿 法 会 一 步 一 步 (迭代 ) 地 找到 最 优 解 ， 
其 运 代 的 步 幅 用 表示， 迭代 公式 为 : 

0,12 0,—yH '- VO 








可 以 看 出 ， 牛 顿 法 参数 最 优化 的 过 程 中 ， 甚 每 一 步 迭 代 的 方向 都 与 对 数 似 然 国 数 的 曲 度 保 
持 一 致 ， 也 就 是 说 每 一 步 迁 代 的 目的 都 是 向 极 值 点 不 断 地 靠近 。 由 于 式 中 涉及 海 塞 矩 阵 
(k*k) 的 求 逆 操作 ， 因 此 牛顿 法 在 数据 量 较 大 、 变 量 较 多 的 情况 下 (如 10 000) 会 遇 到 计 
算 沽 人 开 。 但 是 大 多 数 情况 下 也 不 会 出 现 变量 过 多 的 情况 。 

















其 实在 实际 计算 中 ， 我 们 很 少 直接 对 海 塞 矩 阵 求 着， 而 是 通过 解 一 个 类 似 4x = y 的 线性 方 
程 组 间接 地 找到 4 的 逆 (4 )， 这 通常 比 直接 求 逆 矩 阵 要 容易 得 多 。 


5.3.5 ”随机 梯度 下 降 法 

随机 梯度 下 降 靶 (http;/en.wikipedia.org/wiki/Stochastic gradient descent) 是 求 似 然 国 数 极 
值 的 另 一 个 算法 。 前 面 已 经 提 过 梯度 ， 指 的 是 函数 在 某 一 点 处 的 一 阶 导数 的 值 ， 也 就 是 函 
数 的 变化 率 。 随 机 梯度 下 降 是 一 个 顺序 算法 ， 每 次 只 关注 一 个 数据 点 ， 每 运 代 至 下 一 个 数 
据点 都 会 根据 所 得 到 的 信息 最 优 地 更 新 参数 的 估计 值 ， 以 此 类 推 直到 穷尽 所 有 的 数据 值 。 
这 相 比 于 之 前 的 牛顿 法 ， 优 点 在 于 它 不 需要 对 矩阵 求 逆 。 通 常 就 这 一 点 就 可 以 完 爆 其 他 的 
算法 ， 因 为 它 可 以 有 效 地 适用 于 大 数据 和 稀 距 特征 德 阵 的 情形 。 因 此 也 被 类 似 于 Mahout 
(http://mahout.apache.org/) 和 Vowpal Wabbit (http://hunch.net/~vw/) 这 样 的 开源 机 器 学 习 
软件 包 所 重点 收纳 。 当 然 ， 它 也 有 缺点: 它 的 优化 效果 有 时 候 不 会 大好， 并且 十 分 依赖 于 
步 幅 的 设 定 。 





























5.9.6 ”操练 


逻辑 回归 的 参数 估计 比 传统 回归 更 适用 于 分 类 模型 ， 但 是 其 参数 的 估计 方法 ， 包 括 迭 代 加 
权 最 小 二 乘法 和 随机 梯度 下 降 等 方法 ， 都 要 比 普通 最 小 二 乘 方法 复杂 得 多 。 然 而 ， 你 并 不 
需要 自己 编程 实现 这 些 参 数 的 具体 估计 过 程 ， 类 似 R 这 样 的 统计 软件 已 经 把 这 些 方法 都 收 
入 磨 下 了 ， 你 所 要 做 的 只 是 找到 适合 的 函数 并 应 用 到 手头 的 数据 上 即 可 。 比 如 说 ， 我 们 手 
上 有 一 个 小 数据 集 ， 只 有 S 行 观测 值 和 5 个 URL 标签 。 
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click url 1 urL2 url3 url4 urls 


1 0 0 0 1 0 
1 1 1 0 1 
0 1 0 0 1 0 
1 0 0 0 0 0 
1 1 0 1 0 1 


我 们 把 这 个 数据 矩阵 用 train 命名 ， 那 么 在 R 中 建立 一 个 逻辑 回归 模型 基本 上 可 以 用 下 面 
的 一 行 代码 解决 : 











fit <- glm(click ~ url 1 + url 2 + url 3 + url 4 + url 5, 
data - train, family - binomial(logit)) 


5.3.7 ”模型 评价 


本 章 一 开始 曾经 指出 ， 要 得 到 一 个 效果 良好 的 分 类 模型 ， 数 据 科学 家 需要 考虑 诸多 因素 。 
其 中 ， 选 择 模 型 评价 标准 就 是 一 个 十 分 重要 的 因素 。 第 3 章 和 第 4 章 讨论 过 了 如 何 评价 线 
性 回归 模型 、 大 近邻 以 及 朴素 贝 叶 斯 模型 。 但 是 总 体 来 说 ， 模 型 的 评价 没有 一 个 统一 标准 ， 
它 既 取决 于 分 析 的 数据 ， 也 和 模型 本 身 有 关 。 因 此 在 选择 的 时 候 需要 十 分 谨慎 。 就 拿 逻 辑 
回归 来 说 ， 它 既 可 以 用 于 对 二 元 变量 的 建 模 ， 也 同样 适用 于 多 标签 变量 ， 因 此 在 选择 模型 
评价 方法 时 ， 需 根据 不 同 问题 采取 不 同方 法 。 


首先 ， 若 将 逻辑 回归 用 在 排序 模型 中 ， 比 如 说 你 想 将 广告 或 商品 被 用 户 点 击 的 概率 进行 排 
序 。 你 可 以 先 利用 逻辑 回归 估算 各 个 概率 ， 把 模型 的 输出 结果 从 大 到 小 排序 。 如 果 建 模 者 
对 输出 类 别 的 相对 排序 感 兴趣 〈 而 不 是 个 别 类 的 绝对 概率 值 )， 那 么 适用 的 模型 评价 方法 
包括 下 面 两 个 。 
















































































。 操作 者 特征 曲线 面积 (ROC 面积 ) 
前 面 我 们 提 到 ,次 辑 回 归 的 输出 值 是 一 个 概率 值 。 如 果 我 们 想得到 一 个 二 元 输出 值 ， 那 
么 可 以 定义 一 个 国 值 。 对 于 一 个 分 类 模型 的 分 类 效果 ， 通 常 我 们 会 比较 关注 两 个 指标 : 
真 阳性 值 (实际 类 别 为 1， 预 测 类 别 也 是 1) MAREE (预测 类 别 是 1， 而 实际 类 别 
为 0) 。 操 作者 特征 曲线 (也 就 是 ROC 曲线 ) 结合 了 姜 值 和 两 个 阳性 值 指标 ， 最 早 是 被 
信号 检测 学 家 用 来 选择 最 佳 信 号 的 检测 模型 。 该 曲线 图 的 纵 轴 代表 模型 的 真 阳 性 值 ， 横 
轴 代 表 模 型 的 伪 阳 性 值 。 给 定 一 个 逻辑 回归 模型 和 一 个 国 值 ， 模 型 分 类 效果 的 真 阳 性 
值 和 伪 阳 性 值 都 可 以 方便 地 计算 出 来 ， 并 可 以 绘制 成 一 个 二 元 平面 上 的 点 。 国 值 可 以 
在 -= 和 = 之 间 连 续 变 动 ， 因 此 代表 ( 真 阳 性 值 ， 伪 阳性 值 ) 的 点 也 可 以 连续 变动 ， 既 
而 形成 一 条 曲线 。 这 条 曲线 就 称 作 操作 者 特征 曲线 ， 它 描绘 了 模型 的 分 类 效果 与 国 值 
的 变动 关系 。 该 曲线 到 横 轴 之 间 的 面积 通常 称 作 操作 者 特征 曲线 面积 (AUC) ， 它 是 评 
价 一 个 分 类 模型 效果 的 经 典 指标 ， 因 此 也 可 以 用 来 比较 两 个 分 类 模型 熟 优 熟 劣 。 想 知道 
更 多 关于 ROC FI AUC 的 细节 ， 你 可 以 参考 Tom Fawcett 的 文章 “Introduction to ROC 
Analysis" (“ROC 分 析 导 论 "， 参 见 http:/goo.gUfE8i7s ) 。 
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。 累积 提升 图 
在 直销 行业 ， 建 模 者 较 多 地 使 用 累积 提升 图 判断 一 个 模型 到 底 有 没有 用 。 模 型 有 用 的 最 
低 标准 是 ， 它 的 效果 至 少 应 该 好 于 随机 猜测 。 


在 第 13 章 中 ， 我 们 还 将 用 到 这 两 种 图 形 评价 方法 。 








模型 产品 化 的 问题 


如 果 你 想 把 逻辑 回归 产品 化 并 应 用 于 广告 排序 的 实际 问题 上 ， 那 你 应 该 仔细 审视 所 用 
数据 的 生成 过 程 。 这 可 能 说 得 有 点 抽象 ， 让 我 们 用 一 个 实例 来 说 明 。 侠 如 说 ， 在 给 用 
户 展 示 广 告 时 ， 你 将 某 发 胶 的 广告 放 在 了 香 体 露 广 告 的 上 方 ， 然 后 发 现 发 腕 广告 获得 
了 更 多 的 用 户 点 击 率 ， 那 么 这 究竟 意味 着 发 胶 广 告 更 受用 户 欢迎 呢 ， 还 是 因为 你 把 它 
放 在 了 更 加 显眼 的 位 置 呢 ? 也 就 是 说 ， 广 告 的 排列 位 置 可 能 会 潜在 地 影响 广告 本 身 的 
点 击 率 ， 而 广告 本 身 的 质量 就 变 得 难以 考证 了 。 ! 解决 “干扰 因子 ”影响 的 办 法 就 是 把 
该 因子 本 身 作 为 预测 变量 加 入 到 模型 当中 。 在 建 模 过 程 中 ， 干扰 因子 的 影响 十 分 复杂 
却 又 至 关 重 要 ， 我 们 也 很 难 三 言 两 语 就 说 明白 。 可 以 想象 ， 在 谷歌 甚至 存在 一 “广告 
质量 控制 部 ”"， 专 门 负 责 研 究 和 解决 类 似 的 问题 。 











其 次 ,假设 要 将 逻辑 回归 模型 用 于 分 类 问题 ， 那 么 我 们 已 经 知道 数据 的 实际 输出 是 一 个 二 
元 值 (0, 1), 而 逻辑 回归 的 模型 输出 是 一 个 介 于 0 和 1 之 间 的 概率 值 。 为 了 将 逻辑 回归 模 
型 应 用 到 没有 标签 值 的 样本 ， 我 们 需要 将 逻辑 回归 的 实际 输出 (一 系列 概率 值 ) 转换 成 二 
元 值 (0 和 1)。 为 了 最 小 化 模型 的 误 分 率 ， 我 们 需要 在 这 个 转换 过 程 中 选择 一 个 合适 的 效 
值 。 比 如 说 国 值 为 0.5， 那 么 只 要 预测 概率 值 大 于 0.5， 预 测 标签 值 就 为 1 (代表 被 点 击 ) s 
反之 则 为 0。 模 型 的 评价 有 很 多 指标 ， 我 们 在 第 3 章 和 第 4 章 也 讨论 了 一 些 。 我 们 把 这 些 
已 经 讨论 过 的 模型 评价 标准 拿 出 来 ， 再 结合 一 些 没有 讨论 过 的 标准 ， 在 这 里 一 起 呈现 给 大 
家 。 你 会 想 ， 如 此 多 的 标准 ， 在 实际 应 用 中 到 底 应 该 选择 哪 一 个 呢 ? 其 实 ， 每 一 个 标准 都 
各 有 侧重 ， 对 它们 的 选择 也 要 因地制宜 。 


。 提升 度 
提升 度 指 的 是 分 类 模型 的 预测 精度 相 比 随机 猜测 模型 的 提升 幅度 。 
































。 准确 度 
模型 的 准备 度 指 的 是 所 有 被 正确 预测 的 类 别 (包括 阳性 类 和 阴性 类 )。 
。 精确 度 


模型 的 精度 指 的 是 模型 的 真 阳 性 值 /所 有 的 阳性 值 。 也 就 是 说 ， 在 所 有 被 预测 为 阳性 的 
类 中 ， 其 真实 为 阳性 的 比例 。 











ik1: 在 统计 学 中 ， 这 通常 称 作 “干扰 因子 "。 
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。 召回 率 
名 回 率 指 的 是 模型 的 真 阳性 值 / (模型 的 真 阳性 值 + 模型 的 假 阴性 值 )。 也 就 是 ， 在 所 
有 应 该 被 预测 为 阳性 的 类 中 ， 其 真实 被 预测 为 阳性 的 比例 。 





。 F 得 分 
之 前 我 们 没有 提 到 任何 关于 已 得 分 的 内 容 ， 它 是 精度 和 召回 度 的 调和 平均 值 ， 其 形式 
为 : (2x 精确 度 x 召回 度 )/ (精确 度 + 召回 度 )。 可 以 看 出 ， 它 综合 考虑 到 了 精确 度 和 
召回 度 的 不 同 特性 。F 得 分 还 有 很 多 变种 ， 其 区 别 主要 在 于 精确 度 和 召回 度 的 权重 不 同 。 


最 后 ， 如 果 我 们 想 评 价 或 比较 模型 输出 的 实际 概率 值 的 精确 程度 ， 可 以 用 以 下 三 种 评价 
标准 。 




















。 均 方 误差 
之 前 关于 线性 回归 的 章 市 中 提 到 过 均 方 误差 的 概念 ， 它 指 的 是 实际 值 和 预测 值 之 间 的 平 
均 平方 距离 。 


。 根 均 方 误差 
顾名思义 ， 根 均 方 误差 就 是 均 方 误差 的 平方 根 。 


。 平均 绝对 离 差 
与 均 方 误差 不 同 的 是 ， 平 均 绝对 离 差 计算 的 是 预测 值 和 实际 值 之 间 的 绝对 值 距离 ， 而 不 
是 平方 距离 。 


综合 来 看 ，AUC (接受 者 操作 特征 曲线 下 面积 ) 要 比 提升 曲线 更 适合 用 作 模 型 比较 。 提 升 
曲线 的 一 大 特征 就 是 :“ 基 率 不 变性 。” 比 如 说 ， 如 果 模 型 将 用 户 点 击 率 从 1% 提升 到 296, 
其 提升 率 为 100%， 而 如 果 从 4% 提升 到 7%， 其 提升 率 反而 小 于 100%。 然 而 ， 很 明显 后 
者 的 提升 效率 更 高 。 从 这 一 点 来 看 ，AUC 要 更 加 适用 于 模型 的 比较 。 


























我 们 有 必要 再 讨论 一 下 输出 概率 模型 与 输出 排序 模型 之 间 的 区 别 。 假 设 在 广告 点 击 模型 
中 ， 每 条 广告 的 成 本 是 c 元 ， 而 如 果 该 广告 被 用 户 点 击 (用 conversion 表示 ) ， 可 得 收益 为 
gq 元。 车 想 获 取 利润 ， 那 么 相应 的 收益 必须 大 于 成 本 ， 也 就 是 说 : 




















P(Conversion |X):q > c 








可 以 看 到 式 子 的 最 左边 代表 用 户 点 击 某 广告 的 概率 值 大 小 。 因 此 ， 在 利润 要 求 下 ， 能 够 准 
确 估 算出 广告 被 用 户 点 击 的 概率 值 对 于 保证 利润 有 着 举足轻重 的 作用 。 在 这 里 ， 广 告 排序 
( 谁 更 有 可 能 被 用 户 点 击 ) 的 意义 就 相形 见 红 了 。 比 如 说 ， 某 三 条 广告 的 排序 为 1、2、3， 
代表 第 一 条 广告 最 有 可 能 被 用 户 点 击 ， 甚 对 应 的 概率 值 可 能 为 0.7、0.5 和 0.3。 然 而 ， 即 
使 对 应 的 概率 值 只 有 0.03、0.02 和 0.01， 它 们 之 间 的 排序 关系 也 不 会 有 任何 改变 。 但 是 
这 么 小 的 概率 值 对 于 利润 的 影响 却 是 巨大 的 。 因 此 ， 类 似 均 方 误差 的 评价 标准 更 适合 用 在 
此 处 。 




















在 模型 评价 中 应 用 A/B 测试 优化 法 


当 我 们 选择 某 个 模型 评价 标准 (比如 前 面 提 及 的 准确 度 、 均 方 误差 等 )， 并 据 此 建立 
和 优化 模型 的 时 候 ， 从 根本 上 来 说 ， 我 们 是 在 找 模型 中 相关 参数 的 最 优 解 。 有 时 候 对 
模型 的 评价 适宜 使 用 复合 的 标准 ， 例 如 前 面谈 到 的 利润 标准 ， 而 利润 标准 的 本 质 其 实 
还 是 模型 的 概率 输出 的 准确 度 。 因 此 模型 本 身 很 难 直 接 反 映 我 们 想 要 的 最 优 结果 : 最 
大 化 的 利润 。 为 了 克服 这 个 缺点 ， 通 常 的 做 法 是 应 用 AB 测试 优化 法 。 举 例 来 说 ， 我 
们 想 比 较 两 个 模型 哪个 更 优 ， 那 么 我 们 可 以 随机 地 给 两 个 模型 组 分 配 两 组 用 户 ， 并 分 
别 计 算 两 组 用 户 产生 的 利润 值 。 这 里 需要 注意 的 是 ， 我 们 直接 使 用 了 我 们 最 为 关心 的 
“利润 值 ”指标 ， 而 并 非 模型 准确 度 、 均 方 误差 这 样 的 模型 类 指标 ， 因 此 我 们 得 以 直接 
考察 两 组 模型 在 创造 利润 上 的 差距 ， 从 而 决定 使 用 哪个 模型 。 这 就 是 统计 实验 设计 学 
中 的 A/B 测试 优化 法 ， 我 们 将 在 第 11 章 做 深入 探讨 。 











5.4 练习 题 


M6D 慷慨 地 提供 了 一 个 数据 集 供 我 们 练习 逻辑 回归 的 建 模 、 分 析 和 评价 。 数 据 可 以 从 
https://github.com/oreillymedia/doing_data_science 直接 下 载 。 下 面 的 代码 可 作 人 参考 。 























示例 R 代 码 


# 作者 : Brian Dalessandro 

# 读 取 数据 ， 检 查 变量 ， 创 建 训练 和 测试 数据 集 

file «- "binary class dataset.txt" 

set <- read.table(file, header = TRUE, sep = "Mt", 
row.names - "client id") 





names(set) 


split «- .65 

set["rand"] «- runif(nrow(set)) 
train «- set[(set$rand «- split), ] 
test «- set[(set$rand » split), ] 
set$Y <- set$Y BUY 


THUHUDIBUHUBBREHHEHUHBRRETREHEHHERHRUHUBIBEECTHHHHHBUHHREBEHEEUE 
THEHHHHHHHHBL R 函数 THHHHHHHEHHE 
THUHUHIBUHUBRETHHEHUHBRRETREHEHH RHRUHUBIBEEETHHHHHBUHHREIHHIEUE 


library(mgcv) 





# GAM 平滑 图 函数 
plotrel <- function(x, y, b, title) { 
# 对 数据 生成 一 个 GAN 平滑 表示 
g <- gam(as.formula("y ~ x"), family = "binomial", 
data = set) 
xs <- seq(min(x), max(x), length = 200) 
p <- predict(g, newdata = data.frame(x = xs), 
type = "response") 
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# 现在 得 到 实证 分 析 的 结果 (如 果 结 果 不 古 离散 化 的 ， 还 要 进行 离散 化 操作 ) 
if (length(unique(x)) > b) { 
div «- floor(max(x) / b) 
x b «- floor(x / div) * div 
c «- table(x b, y) 
} 
else { c <- table(x, y) } 
pact <- c[ , 2]/(c[ ，1]+c[，2]) 
cnt <- c[ , 1]+c[ , 2] 
xd <- as.integer(rownames(c)) 
plot(xs, p, type="l", main=title, 
ylab = "P(Conversion | Ad, X)", xlab="X") 
points(xd, pact, type="p", col="red") 
rug(x+runif(length(x))) 


library(plyr) 


# WMAE 图 函数 及 其 相关 计算 
getmae <- function(p, y, b, title, doplot) { 
# 将 数据 正则 化 到 [6，1] 区 间 范 围 内 
max p <- max(p) 
p norm «- p / max p 
# 细 分 成 b 个 间隔 
bin «- max p * floor(p norm * b) / b 
d «- data.frame(bin, p, y) 
t «- table(bin) 
summ «- ddply(d, .(bin), summarise, mean p - mean(p), 
mean y - mean(y)) 
fin <- data.frame(bin = summ$bin, mean p = summ$mean p, 
mean y - summ$mean y, t) 




















# 计算 wMAE 
num = 0 
den = 0 


for (i in c(1:nrow(fin))) { 
num <- num + finSFreq[i] * abs(fin$mean p[i] - 
fin$mean y[i]) 
den <- den + finSFreq[i] 
} 
wmae <- Num / den 
if (doplot == 1) { 
plot(summ$bin, summ$mean p, type = "p", 
main = paste(title," MAE =", wmae), 
col = "blue", ylab = "P(C | AD, X)", 
xlab - "P(C | AD, X)") 


points(summSbin, summ$mean y, type = "p", col = "red") 
rug(p) 
} 
return(wmae) 
} 
library(ROCR) 


get_auc <- function(ind, y) { 
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pred «- prediction(ind, y) 

perf «- performance(pred, 'auc', fpr.stop - 1) 

auc «- as.numeric(substr(slot(perf, "y.values"), 1, 8), 
double) 

return(auc) 


# 针对 某 个 特征 变量 集合 ， 用 X 交叉 验证 法 评估 模型 表现 





getxval <- function(vars, data, folds, mae bins) { 
# 将 观测 值 分 配 到 相应 的 交叉 验证 分 组 中 
data["fold"] «- floor(runif(nrow(data)) * folds) + 1 
auc «- c() 
wmae «- c() 
fold «- c() 
# 生成 一 个 公式 (formula) 对 象 
f = as.formula(paste("Y", "~", paste(vars, 
collapse = "+"))) 

for (i in c(1:folds)) { 

train <- data[(data$fold != i), ] 

test <- data[(data$fold == i), ] 

mod x <- glm(f, data-train, family = binomial(logit)) 








p «- predict(mod x, newdata - test, type - "response") 
# 计算 wMAE 
wmae «- c(wmae, getmae(p, test$Y, mae bins, 

"dummy", 0)) 


fold «- c(fold, i) 

auc «- c(auc, get auc(p, test$Y)) 
} 
return(data.frame(fold, wmae, auc)) 


} 


IHHHHBHHHHHHBHBHHHHBHBHHHUHHHHHHHBHBHHHHHHHHHHHHHHHHHHHHHHHHHRE 
IHHHHBHHHHE 主 程序 ， 模型 与 作 图 HHHHHBHBE 
JHHHHBHHHHBHBHBHHHHHHHBHHHHHHBHHHHHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHE 
# 现在 在 模型 中 加 入 所 有 可 用 变量 
# 检查 模型 的 估计 参数 和 拟 合 效果 
vlist «- c("AT. BUY. BOOLEAN" , "AT FREQ BUY", 
"AT FREQ LAST24 BUY", 
"AT FREQ LAST24 SV", "AT FREQ SV", "EXPECTED TIME BUY", 
"EXPECTED TIME SV", "LAST BUY", "LAST SV", "num checkins") 


























f = as.formula(paste("Y BUY", "~" , paste(vlist, 
collapse = "+"))) 

fit <- glm(f, data = train, family = binomial(logit)) 

summary(fit) 

# 计算 每 个 变量 对 应 的 模型 评估 值 

vlist «- C("AT BUY BOOLEAN", "AT FREQ BUY", 


"AT FREQ LAST24 BUY", 
"AT FREQ LAST24 SV", "AT FREQ SV", "EXPECTED TIME BUY", 
"EXPECTED TIME SV", "LAST BUY", "LAST SV", "num checkins") 


# 生成 一 个 空间 量 用 来 存储 模型 表现 评估 结果 





逻辑 回归 


107 


auc mu «- c() 
auc sig «- c() 
mae mu «- c() 
mae sig «- c() 


for (i in c(1:length(vlist))) { 
a «- getxval(c(vlist[i]), set, 10, 100) 
auc mu <- c(auc mu, mean(aS$auc)) 
auc sig <- c(auc sig, sd(a$auc)) 
mae mu <- c(mae mu, mean(aS$wmae)) 
mae sig <- c(mae sig, sd(aS$wmae)) 


} 


univar <- data.frame(vlist, auc mu, auc sig, mae mu, mae sig) 





# 画 出 每 个 变量 的 MAE 图 

use holdout group for evaluation 

set <- read.table(file, header = TRUE, sep = "Mt", 
row.names-"client id") 

names(set) 


split«-.65 

set["rand"] «- runif(nrow(set)) 
train «- set[(set$rand «- split), ] 
test «- set[(set$rand » split), ] 
set$Y «- set$Y BUY 


fit «- glm(Y BUY - num checkins, data - train, 
family = binomial(logit)) 

y «- test$Y BUY 

p «- predict(fit, newdata - test, type - "response") 


getmae(p,y,50,"num checkins",1) 


# 向 前 贪 禁 选 择 法 

rvars «- c("LAST SV", "AT FREQ SV", "AT FREQ BUY", 
"AT BUY BOOLEAN", "LAST BUY", "AT FREQ LAST24 SV", 
"EXPECTED TIME SV", "num checkins", 
"EXPECTED TIME BUY", "AT FREQ LAST24 BUY") 

# 生成 一 些 空 向 量 

auc mu «- c() 

auc sig «- c() 

mae mu «- c() 

mae sig «- c() 


for (i in c(1:length(rvars))) { 
vars «- rvars[1:i] 
vars 
a <- getxval(vars, set, 10, 100) 
auc mu <- c(auc mu, mean(a$auc)) 
auc sig <- c(auc sig, sd(a$auc)) 
mae mu <- c(mae mu, mean(aS$wmae)) 
mae sig <- c(mae sig, sd(aS$wmae)) 
} 


kvar«-data.frame(auc mu, auc sig, mae mu, mae sig) 
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# 画 出 三 个 AUC 曲线 
y <- test$Y BUY 


fit «- glm(Y BUY-LAST SV, data-train, 

family = binomial(logit)) 
p1 <- predict(fit, newdata-test, type-'"response") 
fit «- glm(Y BUY-LAST BUY, data-train, 

family = binomial(logit)) 
p2 <- predict(fit, newdata-test, type-"response") 
fit «- glm(Y BUY-num checkins, data-train, 

family = binomial(logit)) 
p3 «- predict(fit, newdata-test,type-"response") 


pred «- prediction(p1,y) 
perfi <- performance(pred,'tpr','fpr') 
pred «- prediction(p2,y) 
perf2 <- performance(pred,'tpr','fpr') 
pred «- prediction(p3,y) 
perf3 <- performance(pred,'tpr','fpr') 


plot(perfi, color="blue", main-"LAST SV (blue), 
LAST BUY (red), num checkins (green)") 

plot(perf2, col-"red", add-TRUE) 

plot(perf3, col-"green", add-TRUE) 
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时 间 油 数据 与 金融 建 模 





本 章 的 贡献 者 为 来 自 GetGlue 公司 的 Kyle Teague 以 及 我 们 的 老 熟 人 Cathy O^Neill, Cathy 
所 讲 的 内 容 涉及 时 间 序 列 分 析 、 人 金融 建 模 以 及 fancypants regression。 但 在 学 习 这 此 主题 之 
前 ，Kyle 将 与 我 们 一 起 分 享 他 关于 推荐 系统 方面 的 经 验 。( 关 于 这 一 主题 ， 另 见 第 7 章 。) 
最 后 ， 我 们 会 了 解 一 下 关于 时 间 惟 数据 的 基本 知识 ， 这 与 Cathy 所 要 讲 的 内 容 前 后 呼应 。 














6.1 Kyle Teague 与 GetGlue 公 司 


Kyle Teague 是 GetGlue 公司 分 管 数 据 科 学 与 工程 的 副 总 裁 。Kyle 早先 从 事 于 电子 工程 领 
域 。 他 认为 自己 之 所 以 成 为 一 个 数据 科学 家 ， 与 他 当年 在 研究 室 和 实验 室 里 所 做 的 大 量 
关于 信号 处 理 方面 的 工作 不 无 关系 。 他 从 很 小 的 时 候 就 开始 接触 编程 ， 现 在 他 主要 使 用 
Python 语言 。 





























GetGlue 同样 是 一 家 总 部 位 于 纽约 的 初创 公司 ， 它 们 的 主 营业 务 是 关于 电影 电视 的 内 容 开 
发 。 传 统 上 ， 我 们 搜寻 自己 感 兴趣 市 目的 方法 是 参考 报纸 /电视 台 手 册 上 的 频道 列表 。 这 
样 的 传统 最 早 可 以 追溯 到 19 世纪 50 年 代 。 而 现在 ， 电 视 上 有 成 千 上 万 的 频道 以 及 难以 计 
数 的 电视 和 电影 节目 ， 用 传统 的 方法 找 起 来 似乎 有 点 不 太 现 实 了 。 这 就 是 电影 电视 内 容 开 
发 /推荐 所 要 解决 的 问题 。 


GetGlue 想 要 改变 传统 搜寻 电视 节目 的 方式 ， 提 供给 人 们 定制 化 的 节目 推荐 方案 。 有 具体 来 
说 ， 每 当 用 户 收 看 某 个 电视 节目 ， 他 们 相应 地 制造 了 一 条 时 间 发 数据， 也 就 是 说 他 们 在 某 
个 时 点 进行 了 “收看 ”这 一 动作 。 当 然 ,“ 收 看 ”并 不 是 唯一 的 动作 ， 用 户 可 以 “ 赞 ” 茶 
个 节目 ， 或 者 对 某 节 目 加 以 “评论 ”等 。 
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用 户 的 这 种 时 间 截 行为 会 被 存储 在 一 个 类 似 于 { 用 户 , 动作 , 节目 } 的 三 元 向 量 中 。 图 6-1 
称 作 对 偶 图 ， 可 以 用 来 描绘 这 种 类 型 的 数据 。 
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图 6-1: 对 偶 图 ， 左 图 的 实心 点 代表 用 户 〈user) ， 右 图 中 的 实心 点 代表 节目 (item) 


图 中 的 实心 点 称 作 “ 节 点 "， 左 图 的 节点 代表 用 户 ， 右 图 的 节点 代表 节目 ， 节 点 之 间 的 线 
称 作 “连接 线 "。 之 所 以 称 作 “对 偶 图 ”是 因为 图 中 左右 各 有 两 个 “试管 ”， 其 中 的 节点 通 
过 连接 线 相互 联系 。 如 果 左 图 的 某 个 用 户 节 点 与 右 图 的 某 个 节目 节点 之 间 有 连接 线 ， 则 代 
表 该 用 户 对 该 节目 有 过 反馈 。 比 如 说 ， 某 用 户 点 赞 了 某 节 目 ， 则 该 用 户 和 节目 之 间 就 用 连 
接线 相连 。 需 要 注意 的 是 ,“ 试 管 ” 内 部 的 节点 之 间 不 存在 连接 线 。 





























GetGlue 公司 突破 了 试管 内 部 市 点 直接 无 连接 的 限制 ， 并 假设 内 部 节点 也 是 可 以 相连 的 。 
比如 说 ， 用 户 4 可 以 加 用 户 B 为 好 友 ， 那么 4 布点 和 B 市 点 之 间 就 形成 了 一 个 有 向 的 连 
接线 ， 通 常用 一 个 带 有 箭头 的 直线 表示 。 即 使 4 与 用户 直 接 没有 互 粉 ，GetGlue 公司 也 
可 以 通过 用 户 的 资料 特征 猜测 某 两 个 用 户 可 能 具有 类 似 的 欣赏 品味 ， 进 而 把 用 户 4 推荐 给 
HEB (当然 也 会 把 用 户 B 推荐 给 用 户 4)。 











刚才 所 讲 的 是 用 户 之 间 的 连接 ， 而 节目 之 间 同 样 可 以 根据 相似 性 相互 连接 ， 这 项 工作 











时 间 截 数据 与 金融 建 模 | 111 





通常 需要 人 工 来 做 ， 而 GetGlue 公司 就 雇 了 不 少 员工 专门 从 事 这 项 工作 。 比 如 说 ， 电 影 
TrueBlood (《 真 爱 如 血 》)) 和 Buffy the Vampire Slayer. (《 魔 法 奇兵 》) 从 某 个 角度 来 看 非常 相 
似 ， 那 么 工作 人 员 就 会 在 表示 这 两 个 电影 的 节点 上 画 上 连接 线 ， 以 表示 它们 互相 之 间 有 相 
似 性 。 但 是 如 何 确定 连接 线 是 否 带 有 箭头 ， 带 单 向 箭头 还 是 双向 箭头 就 比较 微妙 了 。 通 党 
的 做 法 是 按照 时 间 先 后 顺序 。 比 如 说 , 《真爱 如 血 》 在 《魔法 奇兵 》 之 前 上 映 ， 那 么 箭头 
的 方向 就 从 前 者 指向 后 者 。《 真 爱 如 血 》 当 年 票房 一 片 红 火 ， 这 也 可 能 意味 着 《魔法 奇兵 》 
也 会 同样 受 欢 迎 ， 因 为 它们 都 是 关于 吸血 鬼 的 电影 。 因 此 ， 这 里 的 箭头 不 仅仅 代表 了 电影 
内 容 的 相似 性 ， 也 可 能 意味 着 他 们 受 欢 迎 程度 的 相似 性 。 著 名 的 在 线 电 台 公 司 Pandora 据 
说 也 在 产品 中 使 用 类 似 的 标注 法 。 


在 这 个 行业 ， 推 荐 的 时 效 性 是 最 为 重要 ! 很 多 的 电视 节目 ， 过 了 这 个 村 可 能 就 没有 这 个 寨 
了 ;而 用 户 的 “点 赞 ” 行 为 也 是 一 内 而 过 ， 因 此 对 数据 的 搜集 要 讲求 一 个 字 :“ 快 "， 并 且 
每 个 数据 点 的 时 间 惟 也 至 关 重 要 ， 这 就 是 意味 着 我 们 要 把 数据 的 形式 增加 到 四 元 : { 用 户 ， 
动作 ， 节 目 ， 时 间 惟 }。 记 录 时 间 戳 信息 可 以 帮助 我 们 擎 握 用 户 喜好 的 传播 特征 ， 从 而 更 
好 地 因 地 、 因 时 的 为 用 户 推荐 他 们 最 想 看 的 电视 节目 。 


6.2 WEIR 


人 带 有 时 间 戳 的 数据 是 大 数据 时 代 的 典型 特征 之 一 ， 它 促进 了 大 数据 时 代 的 到 来 。 因 为 人 们 
在 使 用 计算 过 程 中 的 每 个 动作 其 实 都 会 被 计算 机 精准 地 记录 下 来 ， 尤 其 是 这 些 动作 发 生 的 
时 点 。 这 就 意味 着 ， 即 使 是 单个 用 户 在 一 天 之 内 也 可 以 产生 巨大 的 数据 量 。 比 如 说 ， 你 在 
网 站 上 的 每 次 点 击 ， 或 者 每 次 使 用 软件 ， 甚 至 是 打 电 话 ， 都 会 被 计算 机 (或 者 手机 /平板 
等 移动 设备 ) 记录 下 来 : 包括 这 些 动作 发 生 的 时 点 、 持 续 的 时 间 和 动作 的 具体 内 容 等 。 在 
软件 业 ， 新 产品 或 者 产品 的 新 功能 发 布 后 ， 软 件 工程 师 一 般 都 会 在 软件 内 部 放置 一 段 记录 
用 户 行为 的 代码 ， 这 段 代码 也 是 产品 的 一 个 重要 组 成 部 分 ， 用 来 侦 测 用 户 对 软件 的 使 用 情 
况 以 期 不 断 改 善 该 产品 的 用 户 体验 。 






























































比如 说 ， 在 用 户 访问 《纽约 时 报 》 的 主页 时 ， 网 站 会 记录 用 户 被 呈现 了 哪些 文章 ， 而 用 户 
实际 点 击 并 阅读 了 哪些 文章 等 ， 这 样 跟 对 一 个 客户 ， 会 有 大 量 的 日 志文 件 〈 也 就 是 时 间 发 
数据 ) 产生 。 


下 是 一 段 来 自 GetGlue 的 公司 的 用 户 原 始 数据 ; 








下 











("userId": "rachelschutt", "numCheckins": "1", 
"modelName": "movies", "title": "Collaborator", 
"source": "http://getglue.com/stickers/tribeca film/ 
collaborator coming soon", "numReplies": "0", 

"app": "GetGlue", "lastCheckin": "true", 
"timestamp": "2012-05-18T14:15:40Z", 

"director": "martin donovan", "verb": "watching", 
"key": "rachelschutt/2012-05-18T14:15:40Z", 





"others": "97", "displayName": "Rachel Schutt", 
"lastModified": "2012-05-18T14:15:43Z", 
"objectKey": "movies/collaborator/martin donovan", 
"action": "watching") 


我 们 可 以 按照 之 前 讨论 的 四 元 数据 结构 把 相应 的 字段 提取 出 来 ，{"rachelschutt"，"action": 
"watching", "title":"Collaborator", timestamp:"2012-05-18T14:15:407" ) 就 代表 (MÈ, 
动作 ， 节 目 ， 时 间 戳 上 ， 其 中 用 户 为 rachelschutt， 动 作 是 “观看 "”， 节 目 是 一 个 题 为 “合作 
者 ”(Collaborator) 的 文章 ， 时 间 发 生 在 2012 年 5 月 18 日 下 午 2 点 15 分 40 秒 。 


6.2.1 探索 性 数据 分 析 (EDA) 

第 2 章 我 们 已 经 重点 提出 ， 在 建 模 之 前 最 好 充分 地 利用 探索 性 数据 分 析 的 方法 彻底 了 解 手 
中 的 数据 。 这 里 针对 用 户 的 行为 数据 ， 我 们 再 深入 讨论 一 下 探索 性 数据 分 析 的 方法 。EDA 
是 一 项 富有 灵活 性 的 工作 ， 不 同 的 数据 类 型 、 不 同 的 研究 目的 ， 相 应 都 需要 有 不 同 的 探索 
思路 ， 因 此 没有 统一 的 、 纲 领 性 的 EDA 工具 ， 数 据 科学 家 要 学 会 灵活 应 对 。 











对 于 用 户 行为 数据 分 析 来 说 ，EDA 要 做 的 第 一 件 事 就 是 画 出 每 个 用 户 的 使 用 行为 时 间 序 列 
图 。 想 掌握 用 户 的 整体 特征 ， 前 提 是 做 足够 细致 的 局 部 分 析 工 作 。 研 究 者 要 从 单个 用 户 的 
角度 去 挖 气 数 据 所 曾 释 的 意义 ， 从 而 确保 所 收集 的 数据 是 合情合理 的 ， 但 这 并 不 意味 着 你 
需要 审查 完 每 一 个 用 户 。 


先 在 所 有 用 户 中 取出 一 个 样本 ,通常 不 需要 太 多 用 户 ，100 个 即 可 。 也 许 产 品 有 上 百 万 的 
用 户 ， 但 为 了 先 搞 清楚 状况 ， 你 得 先 挨个 研究 单一 客户 的 使 用 行为 。 仔 细 审 查 上 百 万 用 户 
的 数据 是 不 可 能 完成 的 任务 ， 同 样 也 没有 必要 。 通 常 看 完 100 个 用 户 的 数据 之 后 ， 你 对 用 
户 整体 特征 应 该 已 经 了 解 透 彻 。 但 是 ， 如 果 想 更 精细 地 研究 和 推断 用 户 行为 特征 ，100 个 
数据 肯定 不 足 ， 而 且 你 还 可 能 需要 模型 的 帮助 。 


























假设 你 随机 选取 了 100 个 用 户 ， 并 把 他 们 各 自用 一 个 时 间 序 列 图 表示 了 出 来 ， 图 6-2 展示 
了 4 位 用 户 的 时 间 序 列 图 。 
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图 6-2. 随机 选取 的 四 位 用 户 的 时 间 序列 图 


从 这 个 图 中 ， 我 们 可 以 发 现 什 么 呢 ? 很 明显 ， 用 户 1 每 天 使 用 登录 的 时 点 都 基本 固定 ， 而 
用 户 2 在 刚 开 始 频繁 地 登录 了 数 次 ， 之 后 的 登录 次 数 迅 速 减 少 ， 用 户 3 在 整个 时 间 段 只 登 
录 了 一 次 ， 因 此 我 们 可 能 观察 更 久 的 时 间 才 能 了 解 该 用 户 的 登录 特征 ， 而 用 户 4 每 天 的 登 
ee 这 可 能 是 一 个 “正常 用 户 ”， 这 里 的 “正常 ”与 否 其 实 相 当主 

， 你 也 可 以 说 用 户 2 是 正常 的 。 














看 完了 100 个 用 户 的 时 间 序 


列 图 





之 后 ， 可 以 问 


。 用 户 的 典型 或 者 平均 特征 是 怎样 的 ? 
。 用 户 之 间 的 行为 有 哪些 明显 的 差异 ? 
。 根据 用 户 的 特征 ， 有 可 能 将 他 们 分 门 别 类 吗 ? 














。 怎样 将 用 户 之 间 的 行为 差异 定量 化 以 便 后 乡 


要 回答 这 些 问题 ， 首 先 我 们 要 和 原始 数据 打交道 。 原 始 数 据 与 图 中 呈现 的 样子 大 相 径 庭 ， 
所 以 你 首先 要 解决 的 问题 是 如 何 把 原 数 据 组 织 成 有 效 的 形态 ， 以 便 可 以 用 类 似 图 6-2 的 时 
间 序 列 图 表示 和 研究 它们 。 从 图 中 可 以 看 出 ， 每 个 用 户 的 时 间 玖 的 个 数 ， 出 现 的 时 间 都 是 
不 同 的 ， 这 样 的 数据 清理 起 来 会 比较 麻烦 。 





















































自己 下 面 儿 个 问题 。 





TAE) 























比如 说 用 户 的 行动 有 4 种 可 能 ， 即 “点 赞 ”“ 点 豪 *” “喜欢 ”以 及 “评论 ”， 那 么 这 样 的 用 
户 行为 怎么 用 类 似 图 6-2 的 时 间 序 列 图 绘制 出 来 呢 ? 从 数据 本 身 的 角度 来 说 ， 我 们 应 该 如 
可 存储 这 些 数据 ? 图 6-3 提供 了 一 种 可 能 ， 相 比 于 图 6-2， 该 图 使 用 了 两 种 颜色 表示 用 户 
的 “点 赞 ” 和 “点 衰 ”动作 ， 甚 中 红色 表示 前 者 ， 黑 色 表示 后 者 。 












































用 户 1 -e9999509—9950999——9——9——9—9—9———. 时 间 轴 








用 户 2 -9—— ———9————9— ———e$— —— ——e——» 时 间 轴 


用 户 3 ——————99999— —————————e—. 时 间 轴 








用 户 4 一 人 0 一 一 人 0 一 一 人 一 一 人 一 一 全 一， 时间 轴 











图 6-3. 在 用 户 的 时 间 序 列 图 中 ， 用 不 用 的 颜色 代表 用 户 不 同 的 动作 类 型 。 红 色 表示 “点 赞 " RE 
表示 “点 衰 ”( 另 见 彩 插图 6-3) 


上 图 中 一 个 有 趣 的 现象 是 在 时 间 序 列 图 的 最 后 一 个 时 点 ， 所 有 用 户 都 点 了 赞 。 如 果 发 现 一 
个 类 似 这 样 的 明显 特征 ， 我 们 最 好 停 下 来 想 一 想到 底 有 没有 蹊跷 的 地 方 。 比 如 说 ， 这 到 底 
是 数据 本 身 的 特征 ， 还 是 系统 出 现 了 故障 。 如 果 可 能 是 后 者 ， 我 们 如 何 确定 它 属 于 系统 故 
障 。 像 这 种 用 户 群体 同时 发 生 的 动作 在 其 他 地 方 还 有 没有 出 现 过 ?黑色 的 节点 是 否 普遍 要 
多 于 红色 节点 ?用 户 是 偏向 于 喜欢 “点 赞 ” 还 是 “点 衰 ”? 是 否 某 些 用 户 群 倾向 于 “点 
赞 ” 而 一 些 用 户 群 则 倾向 于 “点 衰 *"， 而 男 外 一 些 用 户 群 则 更 倾向 于 属于 “混合 型 ”用 
P? 怎么 定义 用 户 的 “混合 型 ”行为 ? 可 见 ， 能 引起 我 们 兴趣 的 问题 很 多 。 














完成 单一 用 户 的 核查 之 后 ， 下 一 步 就 要 想 一 想 怎么 对 用 户 进行 汇总 归 类 。 比 如 说 ， 图 6-4 
就 是 一 个 汇总 的 时 间 序 列 图 ， 图 的 最 下 方 横 轴 表示 时 间 ， 纵 轴 表 示 所 有 用 户 的 总 计数 。 


现在 面 对 的 是 全 体 用 户 的 数据 ， 我 们 选择 了 一 个 汇总 统计 量 以 研究 总 体 用 户 的 平均 行为 特 
征 。 对 于 时 间 惟 数据 来 说 ， 即 便 是 汇总 统计 量 的 选取 也 不 会 那么 容易 。 因 为 用 户 可 以 随心 
所 愿 地 登录 ， 因 此 我 们 到 底 是 汇总 用 户 数 还 是 用 户 的 登录 次 数 呢 ? 又 比如 说 ， 在 某 个 特定 
的 时 间 段 内 ， 是 汇总 用 户 的 总 行为 数 还 是 汇总 进行 了 某 项 行为 的 总 用 户 数 ?这样 的 抉择 问 
题 在 时 间 惟 数据 处 理 和 分 析 中 十 分 常见 。 
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| 


di 
Y 





|] 


用 户 1 pe———]—e— —]—e-—e-1—e— —]1-e——» 时 间 轴 


用 户 2 HMe———H-9— —3À—9— —-—e——91-e——. 时 间 轴 


用 户 3 Pe— —]17.— —— —e-e1—e— —-— ——. 时 间 轴 


计数 | 上 一 一 一 一 十 一 一 二 一 一 二 一 一 > 时间 轩 








图 6-4: 用 户 汇总 时 间 序 列 图 
现在 让 我 们 再 回 到 时 间 序 列 





图 的 本 身 ， 问 自己 一 个 更 为 基本 的 问题 : 


这 个 图 横 轴 的 时 间 到 


底 代表 什么 ? 是 以 秒 计 算 ， 还 是 以 天 计算 ? 如 果 选 择 了 以 天 计算 ， 那 原因 为 何 ” 图 中 是 否 
有 明显 的 趋势 或 者 波动 特征 ， 波 动 特 征 是 否 明显 掩盖 了 趋势 特征 ? 类 似 的 问题 还 有 : 我 们 





的 用 户 是 否 来 自 同 一 个 时 区 ? 比如 说 ， 用 户 1 来 





自 纽约 而 用 户 2 来 自 伦敦 ， 那 么 纽约 的 早 








晨 7 点 则 意味 着 伦敦 的 中 饭 时 间 。 如 果 我 们 的 基准 时 区 是 纽约 ， 并 总 结 说 : 从 图 中 看 来 ， 
有 30 000 个 用 户 在 早晨 7 点 对 某 电 影 点 了 赞 ， 如 果 有 很 多 其 他 时 区 的 用 户 ， 那 么 这 样 的 总 

















结 就 会 相当 不 准确 ， 甚 至 于 牌 曲 了 事实 。 对 于 这 种 情形 我 们 又 该 如 何 处 理 呢 ? 此 时 可 以 根 
据 所 有 用 户 的 时 区 将 他 们 的 时 间 惟 用 一 个 基本 时 区 〈 比 如 说 ， 纽 约 时 间 ) 来 表示 。 类 似 这 
样 的 问题 在 数据 处 理 中 还 有 很 多 ， 我 们 需要 注意 分 辨 、 分析， 并 根据 问题 的 实际 特征 加 以 











更 正 。 








时 间 惟 数据 数据 处 理 的 蛋 梦 
QS 4 我们 也 不 想 骗 你 ， 时 间 发 数据 可 能 是 你 见 过 的 最 难 搞定 的 数据 类 型 ， 时 区 就 
二 ”是 一 个 大 问题 。 通 常 的 做 法 是 把 所 有 时 间 点 都 转换 成 一 个 基准 时 间 (参见 


http://www.epochconverter.com/) 后 再 做 分 析 。 





我 们 可 以 做 的 事情 还 有 很 多 














， 比 如 不 同 的 行文 类 别 可 以 用 不 同 的 图 示 方 法 表示 出 来 ， 某 些 
行为 类 别 还 可 以 合 在 一 起 构成 新 的 分 类 。 这 些 进一步 的 分 析 往 往 可 以 给 数据 科学 家 带 来 有 
关 数 据 的 不 同方 面 和 不 同 角度 的 有 价值 信息 。 
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6.2.2 ”指标 和 新 变量 

探索 完 数据 之 后 ， 我 们 可 能 已 经 对 数据 有 了 一 定 程度 的 认识 ， 接 下 来 的 任务 就 是 构建 指 
标 / 变量 了 。 比 如 说 ， 用 户 点 赞 的 次 数 、 用 户 第 一 次 点 赞 的 时 间 等 都 可 以 作为 模型 的 变量 。 
即使 是 构建 一 些 简 单 的 二 元 变量 也 可 能 十 分 有 用 ， 比 如 用 户 “ 至 少 点 赞 了 一 次 ”等 。 构 建 
间 标 和 新 变量 的 主要 目的 是 方便 我 们 对 用 户 进行 比较 ， 换 句 话 说， 就 是 计算 用 户 之 间 的 相 
似 度 和 相 异 度 。 在 构建 新 指标 和 变量 的 时 候 ， 大 至 有 两 个 方向 可 以 走 : 一 个 是 以 用 户 为 基 
准 ， 汇 总 行为 数 ， 一 种 是 以 行为 为 基准 ， 计 算 涉 及 的 用 户 数 。 


因此 ， 我 们 可 以 构建 无 数 个 指标 或 者 新 变量 ， 上 限 就 是 你 的 想象 力 。 但 是 ， 在 构建 新 变量 
的 时 候 ， 一 个 最 基本 的 原则 是 : 这 些 指标 和 变量 的 含义 要 清晰 ， 要 对 理解 数据 有 所 帮助 。 

















6.2.3 下 一 步 怎么 做 

在 完成 探索 性 数据 分 析 ， 并 构造 了 一 系列 的 新 指标 和 变量 之 后 ， 下 一 步 当 然 就 是 建 模 ， 构 
思 和 实现 算法 ， 深入 地 分 析 数 据 了 ! 但 具体 要 怎么 做 还 是 要 根据 问题 而 定 ， 我 们 这 里 呈现 
儿 个 例子 : 








我 们 可 以 建立 时 间 序 列 模 型 ， 并 用 作 预 测 。 比 如 说 较为 常见 的 自 回归 模型 就 是 时 间 序列 模 
型 的 一 种 ， 在 下 一 市 的 金融 建 模 中 我 们 会 详细 讲解 。 在 时 间 序 列 分 析 中 ， 如 果 某 个 建 模 对 
象 对 时 间 较 为 敏感 (比如 ， 市场 总 是 时 涨 时 跌 ， 与 时 间 的 关系 密切 。 时 间 在 市 场 分 析 中 就 
扮演 着 极为 重要 的 角色 )， 这 样 我 们 就 可 以 根据 建 模 对 象 的 时 间 特 征 预测 它 下 一 步 会 如 何 
表现 。 


我 们 也 可 以 做 聚 类 分 析 (第 3 章 已 经 详细 讨论 了 聚 类 分 析 的 内 容 )。 对 于 用 户 数 据 的 聚 类 
分 析 ， 甚 关键 点 也 同样 在 于 如 何 定义 用 户 之 间 的 相似 性 。 

或 者 我 们 会 想 要 构建 一 个 用 户 行为 预警 系统 ， 比 如 说 某 个 用 户 的 行为 特征 发 生 了 异常 就 自 
动 给 管理 人 员 发 送 警 报 。 当 然 ， 这 里 我 们 首先 需要 定义 何 为 “异常 ”行为 ? 
































我 们 也 可 以 做 一 个 事件 监测 系统 ， 也 叫 作 “ 变 点 分 析 ”。 也 就 是 说 我 们 可 以 根据 用 户 的 行 
为 特征 判断 在 某 个 时 点 发 生 了 “不 寻常 事件 ”。 更 深入 的 问题 还 包括 : 用 户 的 何 种 行为 会 
触发 类 似 的 事件 ? 用 户 的 行为 与 该 事件 的 发 生 有 无 因果 关系 等 ? 不 可 否认 的 是 ， 因 果 关 系 
的 研究 难度 会 比较 大 ， 它 需要 涉及 类 似 上 一 章 的 A/B 实验 的 内 容 。 还 有 一 个 终极 目标 ， 我 
们 可 能 会 想 做 一 个 推荐 系统 ， 给 用 户 推 荐 他 们 想 要 的 电视 节目 。 虽 然 对 于 我 们 个 人 来 说 不 
太 现 实 ， 但 这 正 是 GetGlue 在 做 的 事 。 
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历史 背景 


时 间 惟 数据 其 实 并 不 新 额 ， 时 间 序 列 分 析 本 身 也 不 是 一 个 新 兴学 科 。 对 时 间 序 列 分 析 
感 兴趣 的 读者 可 以 阅读 James D. Hamilton 的 Time Series Analysis. (《 时 间 序 列 分 析 》) 
一 书 。 在 时 间 序 列 研究 伊始 ， 数 据 量 一 般 都 比较 小 ， 数 据 发 生 的 频率 也 不 高 通常 是 
日 度 或 者 月 度数 据 。 比 较 高 频 的 数据 最 早出 现 ， 是 在 金融 学 研究 中 的 股票 数据 、 信 用 
卡 的 交易 数据 、 电 话 的 通讯 记录 数据 、 图 书馆 的 图 书 借阅 数据 等 。 

时 间 稚 数据 的 形态 正在 发 生 着 日 新 月 异 的 变化 。 这 主要 体现 在 : 首先 ， 得 益 于 移动 设 
备 的 迅猛 发 展 ， 对 人 们 日 常 行为 的 记录 变 得 难以 置信 的 简单 和 直接 。 其 次 ， 时 间 稚 具 
有 相当 的 精确 性 ， 因 为 这 些 数据 是 由 设备 本 身 记录 的 ， 而 不 是 由 人 自己 汇报 的 。 众 所 
周知 ， 机 器 不 会 搬 谨 ， 但 个 人 汇报 的 数据 却 并 不 可 靠 。 最 后 ， 随 着 计算 能 力 的 迅猛 发 
展 ， 机 器 可 以 储存 大 规模 的 数据 ， 处 理 时 间 也 相应 较 快 。 











6.3” 轮 到 Cathy O'Neill T 


Cathy 是 我 们 的 老 熟 人 了 ， 她 的 数据 科学 知识 构成 可 见 图 6-5。 
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数据 计算 机 ”数学 ”统计 学 ”机 器 。 领域 沟通 
可 视 化 HŽ 学 习 ”知识 技巧 











图 6-5; Cathy 的 数据 科学 知识 构成 图 


CS (计算 机 科学 ) 是 Cathy 的 明显 弱项 ， 不 过 她 的 Python 编程 技巧 十 分 娴熟 ， 可 以 轻松 
抓 取 和 解析 想 要 分 析 的 数据 ， 建 立 模型 并 使 用 matplotlib 绘制 好 看 的 图 形 。 然 而 对 于 使 用 
Java 进行 map-reducer 操作 ，Cathy 就 不 太 擅 长 了 。 她 也 同样 不 太 擅 长 数据 可 视 化 ， 不 过 她 
很 善于 演讲 以 及 与 人 交流 。 


6.4 思维 实验 


如 果 你 选择 忽视 数据 中 内 侈 的 时 间 稚 信息 ， 你 会 失去 什么 ? 
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答案 是 ， 你 将 很 难 梳理 出 数据 中 内 含 的 因果 关系 ， 因 为 时 间 往 往 在 因果 关系 中 扮演 着 至 关 
重要 的 角色 。 


但 是 如 果 我 们 稍微 改变 一 下 刚才 的 问题 ， 假 设 你 并 疫 有 有 具体 的 绝对 的 时 间 戳 信息， 但 是 还 
是 收集 了 一 下 “相对 时 间 戳 ”信息 ， 比 如 说 “ 离 上 次 用 户 最 后 登录 的 时 间 ”， 或 者 “ 离 上 
次 用 户 点 击 的 时 间 ” 等 。 


答案 是 : 即使 有 “相对 时 间 戳 ”信息 也 于 事 无 补 。 诸 如 数据 中 的 趋势 和 季 闻 性 特征 等 都 会 
被 “相对 时 间 ” 忽 视 。 以 之 前 的 胰 名 素数 据 为 例 ， 你 可 能 会 发 现在 注射 胰 龟 素 15 分 钟 后 ， 
血糖 会 持续 降低 ， 这 是 “相对 时 间 惟 ”会 告诉 你 的 信息 。 但 是 如 果 只 有 这 个 “相对 时 间 ” 
而 疫 有 具体 的 时 间 惟 信息， 你 可 能 会 包 视 这 样 一 个 长 期 趋势 : 在 过 去 的 几 个 月 中 ， 你 的 血 
糖 一 直 在 持续 走高 。 同 样 对 于 图 6-6， 因 为 每 个 时 点 的 绝对 时 间 惟 都 被 详细 地 记录 了 下 来 ， 
因此 可 以 看 到 有 明显 的 季节 波动 趋势 。 如 果 只 有 “相对 时 间 惟 ”数据 ， 你 很 容易 忽略 了 季 
节 性 特征 。 对 于 金融 数据 来 说 ， 如 果 想 通过 观 调 序列 的 走势 找到 合适 的 严 和 人 / 卖 出 点 ， 记 
孙 具 体 的 时 间 戳 信息 更 显得 极为 重要 。 
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图 6-6: 如 果 不 记录 具体 的 时 间 改 信息 ， 像 本 图 中 的 季节 性 特征 是 无 从 发 现 的 


65 ”金融 建 模 


数据 科学 家 的 头衔 出 现 之 前 ， 在 金融 领域 “金融 分 析 师 ”这 一 职业 已 经 存在 了 许久 。 从 工 
作 性 质 上 来 看 ， 金 融 分 析 师 与 数据 科学 家 既 相 似 又 大 有 不 同 。 其 中 一 点 就 是 ， 金 融 分 析 师 

















时 间 截 数据 与 金融 建 模 | 119 


十 分 在 意 时 间 发 数据， 甚至 有 点 迷恋 ， 他 们 甚至 不 太 关 心 为 什么 数据 会 是 这 个 模样 ， 而 只 
关心 数据 发 生 的 时 间 点 。 


金融 建 模 是 一 个 内 涵 直 和 一 的 研究 领域 ， 我 们 接 下 来 就 感受 一 下 它 的 魅力 所 在 。 


6.5.1 样本 期 内 外 以 及 因果 关系 
首先 需要 定义 何 为 “样本 期 内 ”， 何 为 “样本 期 外 ”， 对 于 金融 建 模 这 是 一 个 基本 的 概念 区 
分 。 样 本 期 内 ， 顾 名 思 义 就 是 在 观测 期 范围 内 的 样本 数据 ， 而 样本 期 外 与 我 们 前 面 章节 所 
讨论 过 的 “测试 数据 ”有 所 关联 ， 但 又 有 本 质 的 不 用 。 测 试 数据 本 质 上 还 是 在 观测 期 内 ， 
只 是 将 观测 器 划分 成 了 训练 数据 和 测试 数据 两 个 部 分 ， 一 部 分 用 来 训练 模型 ， 另 一 部 分 用 
来 验证 和 测试 模式 。 而 金融 建 模 中 的 样本 期 外 的 数据 严格 发 生 在 建 模 之 后 ， 对 于 样本 期 内 
的 数据 来 说 ， 它 们 是 未 观测 到 的 数据 。 其 目的 是 用 来 检验 金融 模型 在 未 观测 数据 上 的 真实 
预测 表现 。 

此 外 ， 样 本 外 分 析 的 次 数 甚至 都 应 该 加 以 严格 限制 。 因 为 ， 每 一 次 分 析 ， 我 们 都 将 手头 的 
样本 内 数据 学 习 了 一 遍 ， 如 果 样 本 外 分 析 的 次 数 过 多 ， 即 使 是 研究 的 问题 稍 有 不 同 ， 抑 或 
是 不 同 的 模型 ， 我 们 在 潜意识 里 都 有 可 能 不 知 不 觉 地 得 到 过 拟 合 的 结果 。 







































































其 次 ， 当 执行 因果 关系 建 模 的 时 候 (这 与 统计 学 家 所 说 的 因果 关系 有 所 不 同 )， 我 们 必须 
多 加 小 心 。 核 心 原 则 可 以 一 语 概括 : 永远 不 要 拿 未 来 的 数据 去 预测 未 来 ! 听 起 来 似乎 十 分 
擂 口 。 换 句 话 说 ， 意 思 也 就 是 ， 预 测 样 本 期 外 的 数据 时 只 能 使 用 样本 期 内 的 数据 ， 因 为 样 
本 期 外 对 于 样本 期 内 来 说 是 尚未 观测 到 的 。 其 实 ， 更 加 严格 的 来 说 ， 即 使 是 现时 的 数据 ， 
如 果 你 还 没有 搜集 到 ， 也 不 能 用 在 对 未 来 的 预测 上 。 一 语 以 项 之 : 你 只 能 使 用 样本 期 内 已 
经 观测 到 的 数据 ! 稍 后 我 们 会 讲 到 一 个 涉及 政府 部 门 的 时 间 序 列 数 据 。 


同样 ， 因 为 时 间 蕉 的 存在 ， 在 给 定 一 个 训练 数据 集 后 我 们 难以 确定 何 为 模型 的 “最 佳 估计 
参数 "。 因 为 从 数据 的 第 一 个 时 间 改 开始 估计 ， 每 增加 一 个 时 间 改 ， 模 型 的 估计 都 会 发 生 
相应 的 改变 ， 直 到 估计 到 最 后 一 个 时 间 惟 。 也 就 是 说 ， 我 们 不 会 得 到 一 个 “最 佳 估计 值 ”， 
而 是 得 到 一 系列 随 着 时 间 推进 而 演化 的 估计 序列 。 


这 类 估计 方法 的 有 用 之 处 在 于 ， 我 们 可 以 借 此 检验 模型 估计 的 稳定 性 。 璧 如 说 ， 如 果 某 个 
参数 的 估计 值 的 正 负 号 在 估计 序列 中 前 前 后 后 变化 了 十 儿 次 ， 那 么 我 们 可 以 认为 该 参数 的 
估计 相当 不 稳定 ， 而 索性 将 其 从 模型 中 赶 出 去 。 当 然 ， 具体 要 不 要 把 它 赶 出 去 还 要 看 数据 
和 模型 的 具体 含义 ， 也 许 它 是 一 个 天 生 就 好 动 的 参数 ， 但 在 模型 中 却 扮 演 着 十 分 重要 的 
角色 。 


图 6-7 用 红色 线 将 样本 期 内 与 样本 期 外 分 离开 来 ， 它 所 要 表达 的 含义 是 : 样本 期 内 永远 发 
生 在 样本 期 外 之 前 (以 避免 因果 关系 问题 )。 
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图 6-7: 样本 期 内 的 数据 永远 发 生 在 样本 期 外 数据 之 前 ， 红 色 线 代表 了 模型 建立 的 时 点 〈 另 见 彩 插图 
6-7) 


关于 因果 关系 建 模 ， 以 及 样本 内 与 样本 外 的 关系 ， 在 建 模 分 析 中 很 重要 ， 在 产品 代码 中 也 
应 该 得 到 一 致 性 的 体现 。 我 们 在 建 模 的 时 候 一 一 无 论 是 在 训练 数据 上 还 是 在 做 样本 外 模 
拟 一 一 都 假设 模型 可 以 用 在 之 后 的 实际 产品 当中 ， 并 发 挥 相应 的 效用 。 当 然 ， 模 型 的 训练 
和 拟 合 用 的 是 样本 内 的 数据 ， 因 此 样本 内 的 模型 表现 自然 要 好 于 它 之 后 在 产品 中 的 表现 。 
另 一 种 说 法 是 ,一 旦 建 好 了 模型 并 用 在 产品 中 之 后 ， 预 测 和 决策 只 能 建立 在 预测 期 之 前 的 
可 得 数据 上 ， 这 是 因果 建 模 的 核心 准则 。 然 而 ， 一 旦 搜集 到 新 数据 ， 我 们 可 以 理所当然 地 
把 新 数据 加 入 模型 ,更 新 模型 的 参数 估计 并 既而 更 新 模型 的 预测 值 。 因 此 ， 随 着 时 间 的 推 
进 ， 模 型 也 理应 被 不 断 地 更 新 、 优 化 并 变 得 越 来 越 好 。 


6.5.2 ”金融 数据 处 理 
在 实际 建 模 之 前 ， 通 常 要 对 数据 进行 预 处 理 和 分 析 : 比如 ， 做 对 数 变换 ， 计 算 均 值 和 方差 
等 。 这 是 很 好 的 习惯 ， 也 称 作 “ 预 建 模 ”。 











时 间 截 数据 与 金融 建 模 | 121 








数据 变换 


人 们 对 于 正常 数据 的 分 布 的 总 体 印象 来 自 于 正 态 分 布 ， 并 认为 数据 差不多 部 应 该 是 对 

称 的 钟 形 分 布 ， 而 许多 模型 恰好 也 假设 数据 服从 某 种 形式 的 正 态 分 布 。 然 而 ， 金 融 数 

据 往 往 会 表现 “失常 "， 它 们 的 分 布 往往 既 不 对 称 ， 也 明显 不 是 钟 形 分 布 (比如 说 ， 分 

布 过 类)， 因 此 需要 对 数据 进行 变换 ， 让 它们 的 形态 回归 “正常 ”。 下 面 是 一 些 常用 的 

变换 方法 。 

。 将 数据 减 去 其 均值 并 除 以 其 标准 差 ， 变 换 后 的 数值 严格 位 于 0 到 1 之 间 。 这 称 作 标 
准 化 变换 。 

。 在 标准 化 变换 中 ， 也 可 以 除 以 数据 的 最 大 值 。 

。 对 数 变换 : 对 变量 的 每 个 观测 值 取 对 数 。 

。 将 数据 从 小 到 大 等 分 成 5 个 组 ,每 组 的 观测 值 数量 相同 。 

。 将 数据 变换 成 二 元 变量 (0 或 者 1) 。 最 常见 的 变换 方法 我 们 之 前 有 过 论 及 ， 可 以 取 
一 个 国 值 ， 如 果 变 量 的 值 大 于 该 取 值 则 变换 为 1， 否则 变 为 0。 











一 且 我 们 估计 出 了 数据 的 均值 y 和 方差 o 2, ， 新 观测 到 的 数据 点 也 可 以 被 标准 化 。 如 有 果 原 始 
变量 服从 一 个 正 态 分 布 ， 那 么 标准 化 后 的 变量 严格 服从 标准 正 态 分 布 : 一 个 均值 为 0， 标 
准 差 为 1 的 正 态 分 布 。 标 准 化 变换 可 以 表示 为 : 


y-y 
数据 预 处 理 的 方式 多 种 多 样 ， 有 具体 要 怎么 做 要 取决 于 你 的 具体 情况 和 研究 目的 以 及 之 后 要 
用 的 一 些 子 模型 。 比 如 说 ， 有 时 候 我 们 可 能 更 关心 数据 的 相对 变动 ， 也 就 是 说 ， 在 1 时 点 ， 
我 们 想 知道 y, 与 上 一 时 点 的 观测 值 y,_, 有 何 区 别 ， 或 者 ， 我 们 希望 通过 一 个 子 模型 (比如 
一 个 单 序列 的 回归 模型 等 ) 找到 的 哪 部 分 更 适合 用 来 预测 y,， 那 么 这 个 时 候 它 们 的 差 
IE y, y 可 能 就 是 我 们 更 加 关心 的 变量 。' 


数据 变化 的 方法 同样 很 多 ， 到 底 选 择 何 种 变换 也 同样 取决 于 数据 本 身 以 及 研究 目的 。 需 要 
铭记 于 心 的 是 ， 时 间 序 列 的 观测 值 是 有 序 的 ， 时 间 上 的 顺序 代表 着 可 能 的 因果 关系 ， 因 此 
当 你 在 训练 模型 以 及 引入 新 数据 更 新 模型 时 一 定 要 遵循 数据 的 先后 关系 。 永 远 不 要 在 建 模 
中 作弊 ， 不 要 使 用 还 没有 发 生 的 样本 外 数据 。 

一 个 典型 的 例子 是 有 关 在 标准 化 操作 中 均值 的 选用 : 一 定 不 要 使 用 整个 时 间 段 的 数据 均 
值 。 对 于 时 间 序 列 数据 来 说 ， 通 常 要 计算 “移动 均值 ”， 也 就 是 你 在 革 个 时 点 上 上 所 知道 的 
局 部 均值 ， 在 标准 化 时 也 应 该 使 用 该 局 部 均值 ， 而 非 全 局 均值 。* 
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注 1: 这 种 差分 操作 在 金融 建 模 的 很 多 场合 都 十 分 常见 。 
注 2: 也 就 是 说 随 着 时 间 的 推移 ， 序 列 的 均值 也 在 相应 地 发 生变 化 。 这 样 做 的 原因 在 于 时 间 序 列 数据 的 变动 
性 大 ， 不 确定 性 高 ， 单 一 的 全 局 均值 不 能 体现 序列 的 变动 特征 。 





























如 果 不 这 样 做 ， 可 能 会 导致 十 分 危险 的 结果 。 举 个 例子 来 说 ， 假 设 数据 中 间 段 发 生 了 市 场 
崩溃 ”这样 的 极端 情况 虽然 只 是 偶 有 发 生 , 但 仍 会 对 整个 序列 的 均值 和 方差 产生 巨大 影响 。 
如 有 果 在 均值 的 估计 中 只 采用 上 文 所 说 的 全 局 均值 ， 模 型 的 效果 从 整体 上 来 看 会 显得 异常 得 
好 : 我 们 似乎 可 以 在 市 场 崩溃 之 前 就 预测 到 它 的 到 来 了 。 这 样 的 伪 因 果 估 计 只 是 从 形式 上 
提升 了 模型 的 预测 能 力 ， 或 者 让 一 个 原本 很 差 的 模型 变 得 看 起 来 还 不 错 (其 至 ， 让 一 个 根 
本 没有 价值 的 模型 变 得 价值 连城 )。” 


6.5.3 ”对 数 收益 率 

金融 学 中 ， 收 益 率 观测 的 标准 频率 以 日 计算 ， 市 场 十 分 关注 收益 率 的 日 度 变 化 值 。 每 天 市 
场 都 会 开盘 和 收盘 ， 那 么 计算 收益 率 的 方法 可 以 基于 开盘 情况 也 可 以 基于 收盘 情况 。 以 开 
盘 为 例 ， 我 们 可 以 在 周一 和 周二 的 早晨 记录 下 两 天 各 自 的 开盘 价格 ， 并 用 周二 的 价格 减 去 
周一 的 价格 即 得 到 周二 的 收益 率 。 但 是 ， 通 常 的 做 法 还 是 以 收盘 价格 为 基准 计算 收益 率 。 



































相 比 于 百分比 收益 率 ， 我 们 用 得 更 多 的 是 对 数 收益 率 : 假设 第 上 日 的 收盘 价格 为 忆 ， 那 么 
该 日 的 对 数 收益 率 可 以 表示 为 log(P, /已 )， 相 应 的 百分比 收益 率 定义 为 100((F, / F, )， 
如 果 去 掉 百分比 收益 率 定义 中 的 100 则 得 到 绝对 百分比 收益 率 。 


相 比 于 绝对 百分比 收益 率 ， 对 数 收益 率 具有 可 加 性 。 也 就 是 说 ，5 日 的 对 数 收益 率 等 于 5 
天 内 每 日 对 数 收益 率 之 和 。 可 加 性 带 来 了 巨大 的 计算 便利 性 ， 也 是 通常 人 们 更 倾向 于 使 用 
对 数 收 益 率 而 不 是 绝对 百分比 收益 率 的 重要 原因 。 


对 数 收益 率 另 外 一 条 有 趣 的 性 质 是 “对 称 性 "。 举 例 来 说 ， 一 只 股票 的 价格 为 2， 其 先 降低 
5096 则 价格 变 为 1 (绝对 百分比 收益 为 — 0.5)， 那 么 如 果 该 股票 的 价格 从 1 回 到 2， 其 百 分 
比 收 益 率 为 100%， 绝 对 百分比 收益 为 1， 而 - 0.5 和 1 是 不 对 称 的 。 如 果 使 用 对 数 收 益 率 ， 
则 log(0.5) = 一 0.301 与 log(2) = 0.301 是 严格 对 称 的 。 


然而 如 果 数 据 的 频率 较 高 ， 比 如 说 日 度数 据 ， 或 者 更 高 频 的 分 钟 数据 封 ， 其 百分比 收益 率 


与 对 数 收益 率 之 间 的 差距 非常 小 。 这 个 很 容易 证 明 : 令 x = F/F,,， 则 百分比 收益 率 为 x 一 
1 而 对 数 收益 率 为 log(x)。 对 log(x) 应 用 泰勒 展开 式 ， 可 以 得 到 : 
































log(x) = > (x - D -(x—-Dc-(x-0D2-4.. 
n n 





因此 对 数 收益 率 始终 大 于 百分比 收益 率 ， 但 是 只 要 的 值 非常 小 ， 那 么 上 式 中 右 项 从 平方 
项 开始 会 越 来 越 小 ， 其 至 可 以 忽略 不 计 。 对 于 高 频数 据 来 说 ，x — 1 的 值 通常 都 很 小 ， 满 足 
忽略 不 计 的 条 件 。 因 此 ， 对 于 高 频数 据 ， 可 以 用 对 数 收益 率 很 好 的 近似 百分比 收益 率 ， 并 
且 可 以 保留 对 数 收益 率 可 加 性 和 对 称 性 的 优良 特性 。 











注 3: 金融 市 场 的 崩 泪 反映 在 时 间 序 列 上 就 是 金融 产品 价格 的 极速 下 跌 。 
注 4: 在 统计 学 中 ， 均 值 是 一 个 典型 的 “不 稳健 ”统计 量 ， 它 很 容易 受到 极端 值 的 影响 ， 如 果 一 个 序列 中 存 
在 一 两 个 极端 值 ， 它 们 可 以 显著 地 影响 全 局 均值 的 大 小 。 
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6-8 的 直线 为 百分比 收益 率 ， 曲 线 为 对 数 收 益 率 ， 可 以 看 出 在 x= 1 附近， 两 条 线 十 分 接近 。 








比较 对 数 收益 率 与 绝对 百分比 收益 率 











2 3 
x = F(t)/F(t-1) 





6-8: 对 数 和 绝对 百分比 收益 率 曲线 对 比 图 ( 另 见 彩 插图 6-8) 


6.5.4 Ej: 标准 普尔 指数 


6-9 是 标准 普尔 指数 从 2001 年 到 2012 年 的 收盘 价格 指数 时 间 序 列 图 ， 图 6-10 为 其 对 应 
的 对 数 收益 率 时 间 序 列 图 。 








标准 普尔 指数 收盘 价 序列 
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6-9. 标准 普尔 指数 收盘 价格 图 
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bai 标准 普尔 指数 对 数 收益 率 序列 


0.10 





7015601 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 











图 6-10. 标准 普尔 指数 对 数 收益 率 图 


图 6-9 看 起 来 还 似乎 有 规律 可 循 ， 图 6-10 看 起 来 则 是 一 团 乱 麻 。 这 是 金融 时 间 序 列 中 特有 
的 波动 率 特征 ，2008 年 底 的 金融 危机 带 来 的 巨大 波动 率 在 图 中 表现 得 十 分 明显 。 如 果 应 用 
之 前 提 到 的 标准 化 数据 变换 操作 ， 则 可 以 有 效 地 压缩 对 数 收益 率 序 列 的 波动 率 。 图 6-11 就 
是 标准 化 之 后 的 对 数 收益 率 ， 可 以 看 到 ， 波 动 率 在 整个 观测 区 间 内 都 十 分 一 致 ， 没 有 出 现 
图 6-10 中 那样 的 巨大 波动 。 





标准 化 变换 之 后 的 对 数 收益 率 时间 序 列 
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图 6-11: 标准 化 变换 之 后 的 对 数 收益 率 时 间 序 列 图 
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6.5.5 ”如 何 衡量 波动 率 
定义 好 收益 率 之 后 ， 我 们 可 以 计算 收益 率 的 变化 程度 ， 也 就 是 收益 率 的 波动 率 。 通 常 我 们 
用 收益 率 样本 的 标准 差 作为 波动 率 估计 。 


波动 率 计算 的 关键 问题 在 于 样本 回 济 窗 口 期 的 设 定 ， 也 就 是 说 对 于 某 个 时 点 1 的 波动 率 ， 
适合 用 多 少 期 之 前 的 样本 来 估计 。 回 浏 窗口 期 越 长 ， 能 够 用 到 的 信息 越 多 ， 窗 口 期 越 短 ， 
波动 率 对 新 样本 的 加 入 则 可 能 更 加 敏感 。 对 于 窗口 期 ,试想 一 下 市 场 中 发 生 了 一 个 大 事 
件 ， 比 如 说 金融 危机 ， 那 么 该 事件 的 影响 需要 多 长 时 间 才 能 消逝 ? 这 么 一 段 时 间 就 类 似 于 
窗口 期 。 这 个 例子 虽然 还 是 十 分 模糊 ， 但 窗口 期 大 概 就 是 那么 回 事 。 对 于 一 个 大 事件 来 
说 ， 窗 口 期 明显 要 大 于 一 周 或 者 一 个 月 ， 但 超过 一 个 季度 的 窗口 期 则 比较 少见 。 当 然 ， 这 
要 取决 于 事件 本 身影 响 力 的 大 小 。 


其 次 ， 在 计算 收益 率 时 ， 对 于 窗口 期 内 的 数据 点 ， 我 们 还 要 决定 如 何 确 定 每 个 数据 各 自 的 
权重 大 小 。 如 果 是 严格 地 滚动 窗口 ， 也 就 是 说 窗口 期 内 的 所 有 数据 都 被 赋予 相同 的 权重 ， 
窗口 期 之 前 的 数据 则 不 会 被 考虑 进来 。 但 这 种 等 权重 的 计算 方法 与 通常 事件 的 演变 方式 有 
所 出 入 。 这 类 似 于 大 近邻 模型 ， 在 窗口 期 内 离 计算 时 点 越 近 的 点 往往 对 其 影响 更 大 ， 因 此 
在 计算 波动 率 时 权重 的 赋值 可 以 根据 时 间 的 差距 逐渐 递减 。 


这 种 逐渐 递减 的 计算 方法 也 称 作 “指数 平滑 法 ”: 离 得 越 远 的 数据 其 权重 会 指数 式 得 递减 。 
这 里 的 指数 应 该 是 一 个 小 于 1 大 于 0 的 小 数 。 比 如 说 如 果 指 数值 为 0.97， 那 么 第 五 天 前 数 
据 的 权重 就 是 0.975。 这 里 的 权重 是 绝对 权重 ， 在 实际 计算 时 还 要 除 以 权重 值 的 总 和 以 计算 
出 每 个 时 点 上 数据 的 相对 权重 。 如 果 权 重 严格 地 按照 指数 递减 ， 我 们 可 以 相应 地 找到 窗口 
期 内 的 “ 半 训 期 ”对 应 的 时 点 : 也 就 是 在 这 一 点 上 ， 甚 对 计算 时 点 事件 的 影响 已 经 下 降 了 
50%。 对 于 0.97 来 说 ， 其 半 训 期 为 -In(2yln(0.97) = 23。 也 就 是 说 ， 需 要 经 过 23 个 时 点 ， 
计算 时 点 事件 的 影响 会 下 降 一 半 。 


确定 了 窗口 期 和 平 请 指数 值 之 后 ， 对 窗口 期 内 的 每 个 收益 率 值 取 平方 ， 乘 以 其 对 应 的 相对 
权重 后 相 加 取 和 (平方 和 项 ) ， 再 取 甚 平方根 就 得 到 了 波动 率 的 估计 值 。 




























































































注意 我 们 刚刚 给 大 家 的 公式 ， 其 计算 过 程 包含 了 所 有 之 前 的 收益 率 的 值 ， 即 便 权重 值 在 指 
数 递减 ， 这 样 的 计算 很 可 能 还 是 没有 止境 的 ， 这 里 有 一 个 实用 的 小 技巧 ， 如 果 窗 口 期 很 
大 ， 那 么 只 需要 计算 一 个 波动 率 对 应 的 平方 和 项 。 新 时 点 的 波动 率 的 计算 ， 只 需要 将 新 时 
点 对 应 的 收益 率 取 平 方 ， 加 入 之 前 的 平方 和 项 即 可 。 当 然 ， 在 加 入 平方 和 项 之 前 应 该 乘 以 
其 对 应 的 权重 。 














我 们 来 详细 地 解释 一 下 。 因 为 所 有 的 权重 都 是 指数 寡 的 形式 ， 那 么 所 有 窗口 期 内 收益 率 权 
重 的 和 也 称 作 几何 平均 值 ， 如 有 果 窗 口 期 足够 大 ， 该 值 为 (1 - s)， 其 中 s 为 指数 值 。 当 前 
时 点 收益 率 的 波动 率 的 估计 值 可 以 表示 为 : 























Vua — (1— s) Nis 


假设 在 新 时 点 的 收益 率 为 m， 那 么 在 该 时 点 的 波动 率 估计 量 为 : 


View = 5: Vaa + (1 — s) ro 





我 们 说 过 ， 波 动 率 的 佑 计量 通常 用 窗口 期 数据 的 标准 差 来 表示 ， 而 标准 差 的 计算 需要 减 去 
序列 的 均值 。 而 我 们 刚才 展示 的 计算 过 程 似乎 没有 任何 涉及 均值 的 计算 项 。 那 是 因为 我 们 
已 经 假定 数据 已 经 做 了 中 心 化 操作 ， 因 此 均值 为 0， 或 者 我 们 处 理 的 是 类 似 日 度数 据 等 高 
频数 据 ， 其 均值 通常 非常 接近 0。 当 我 们 计算 低频 数据 ， 比 如 季度 数据 或 者 年 度数 据 的 波 
动 率 时 ， 那 么 之 无 疑问 我 们 应 该 把 均值 的 影响 考虑 进来 。 

















关于 指数 平滑 法 
p^ 对 于 将 大 量 数据 压缩 成 一 个 估计 值 的 问题 ， 指 数 平 请 法 非常 好 用 。 
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入” 计 值 的 更 新 非常 容易 ， 我 们 不 需要 每 次 都 重新 计算 一 遍 。 














Va 
w^ 当然 ， 用 多 大 的 指数 值 对 于 指数 平滑 的 效果 有 直接 影响 ， 这 里 可 以 参考 图 
WM a. 612. 
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应 用 不 同 衰减 指数 值 的 标准 普尔 指数 波动 率 平滑 估计 
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6-12: 标准 普尔 指数 的 波动 率 的 指数 平滑 估计 : 使 用 了 三 个 不 同 大 小 的 指数 值 ( 另 见 彩 插图 6-12) 
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其 实 ， 指 数值 的 确定 方法 除了 人 为 主观 设 定 以 外 ， 也 可 以 采取 最 小 化 风险 函数 的 方法 。5 


6.5.6 ”指数 平滑 法 
我 们 刚才 用 标准 普尔 指数 的 例子 讨论 了 如 何 计 算 其 收益 率 的 波动 率 。 这 里 我 们 更 详细 地 介 
绍 它 的 数学 模型 。 


对 于 t 时 点 的 估计 值 我 们 假设 为 B,， 设 定 s 为 衰减 参数 〈 其 通常 等 于 1 - 指数 ， 因 此 是 一 
个 很 小 的 值 )。 指 数 平滑 的 基本 思想 是 ， 离 观测 时 点 越 近 的 值 其 权重 越 大 ， 越 远 的 值 其 权 
重 越 小 ， 因 此 E, 的 指数 平滑 公式 为 : 


E, —s:E-it(1-s):e 








Mat 





EER e, 为 在 上 时 点 的 新 观测 值 。 





估计 的 可 加 性 

p^ a 我 们 要 求 每 个 佑 计 值 都 具备 可 加 性 〈 对 于 前 面 提高 的 深 动 估计 来 说 ， 方 状 是 
”可 加 的 ， 而 标准 差 是 非 可 加 的 )。 如 果 我 们 最 终 想 要 的 估计 值 是 一 个 加 权 平 
均值 ， 那 么 加 权 值 的 分 母 项 与 分 子 项 都 需要 具备 可 加 性 。 

















彰 数 平 请 法 固然 有 效 ， 但 是 在 实际 应 用 时 还 是 应 该 小 心 弄 什 一 点 儿 ， 尤 其 是 在 数据 样本 量 
比较 小 的 时 候 〈 比 如 样本 量 只 有 几 百 或 者 更 少时 )。 与 其 用 一 个 固定 的 平滑 参数 ， 一 种 更 
加 保险 的 方法 是 使 用 变动 的 平滑 参数 (其实 是 平滑 参数 的 倒数 ， 但 由 于 数 与 其 倒数 是 一 一 
对 应 的 ， 所 以 这 里 不 做 严格 区 分 )。 可 以 把 平滑 参数 的 倒数 与 序 D i. do 
来 ， 刚 开始 半衰期 为 1， 然后 慢 慢 变 长 ， 直 到 逼近 其 真实 的 半衰期 值 N = US. ， 在 每 
一 个 时 点 t, 我 们 可 以 得 到 一 系列 的 e, 值 ， 它 们 构成 一 个 向 量 v。 en 



































true N =N 
this_N_est = 1.0 
this_E = 0.0 


for e t in v: 
this E = this E * (1-1/this N est) + e t * (1/this N est) 
this N est = this N est*(1-1/true N) + N * (1/true N) 


6.5.7 ”金融 模型 的 反馈 

定量 分 析 的 研究 人 员 应 该 始终 铭记 于 心 的 是 ， 模 型 的 预测 效果 市 场 会 很 快 地 回应 。 也 就 是 
说 ， 就 算 模 型 能 够 通过 分 析 数 据 在 市 场 中 赚钱 ， 其 效用 迟早 也 会 消失 。 这 通常 称 作 : 市 场 
的 学 习 能 























注 5: 在 工业 界 ， 通 常人 们 都 会 采取 后 者 ， 因 为 其 更 加 客观 ， 可 以 消除 主观 因素 的 影响 。 但 是 如 何 计算 风险 
函数 同样 是 个 十 分 主观 的 问题 。 



































以 股票 为 例 ， 如 有 果 模 型 告诉 你 市 场 价格 将 在 未 来 的 某 个 时 点 上 升 ， 那 么 你 可 能 会 做 的 就 是 
在 现在 的 时 点 买 人 该 股票 ， 然 后 等 待 未 来 的 时 点 到 来 时 把 手 里 的 股票 卖 出 去 以 获取 价格 差 
的 利润 。 但 是 试想 一 下 ， 你 在 现时 点 的 买 入 操作 其 实 已 经 对 市 场 带 来 影响 ， 告 诉 市 场 参 与 
者 你 预期 它 价格 未 来 将 会 走高 ， 这 样 或 会 改变 其 他 投资 者 的 决策 ， 从 而 使 得 你 所 预期 的 信 
号 对 股票 价格 的 影响 力 下 降 。 当 然 ， 如 果 买 入 量 很 小 ， 你 的 买 入 操作 对 市 场 的 影响 可 能 微 
乎 其 微 。 但 是 如 果 模 型 一 直 都 表现 良好 ， 你 的 买 人 量 会 越 来 越 大 ， 最 后 你 的 灭 和 人 操作 可 能 
会 对 市 场 产 生 切实 的 影响 。 因 为 如 果 你 的 模型 一 直 预 测 良 好 ， 你 的 大 量 买 人 操作 会 给 其 他 
投资 者 同样 的 价格 暗示 ， 这 会 前 弱 你 自己 的 盘 利 能 力 。 因 此 在 市 场 中 摸 扑 深 打 其 实 是 在 锻 
炼 自己 对 入 仓 量 的 精准 把 握 。 


这 就 是 市 场 的 学 习 过 程 ， 每 个 人 都 在 做 出 预 判 ， 每 个 人 都 在 看 别人 如 何 预 判 ， 而 市 场 会 做 
出 它 最 平衡 的 决定 。 这 样 的 学 习 能 力 所 导 致 的 直接 后 果 就 是 市 场 的 遗忘 性 ， 即 现存 信号 对 
未 来 市 场 走势 的 指导 能 力 很 弱 。19 世纪 70 年 代 一 次 事件 的 影响 会 在 很 短 的 时 间 内 被 市 场 
所 预 判 、 理 解 并 消化 ， 我 们 在 2014 年 是 不 可 能 看 到 任何 该 事件 还 可 能 留存 的 影响 。 







































































确切 地 说 ， 现 今 市 场 每 日 的 记忆 能 力 只 有 3%。 也 就 是 说 如 果 模 型 的 预测 值 与 真实 值 的 相 
关系 数 大 于 3%， 说 明 你 的 模型 很 可 能 已 经 战胜 了 市 场 ， 你 可 以 从 中 获 利 。3% 也 同样 意 
味 着 ,市 场 中 的 可 利用 信息 微乎其微 ， 其 绝 大 多 数 只 能 算是 噪声 。 因 此 ， 如 果 模 型 足够 出 
E, 并且 交易 成 本 足够 小 ， 你 才 有 可 能 从 市 场 中 获 利 。 


因此 ， 机 器 学 习 模 型 中 的 很 多 用 来 衡量 模型 好 坏 的 标准 ， 比 如 模型 的 精确 度 、 准 确 度 等 ， 
都 不 太 适 用 于 衡量 一 个 金融 模型 的 优 劣 。 


抛 去 模型 准确 度 这 样 的 传统 测度 指标 ， 我 们 更 经 常 使 用 的 是 模型 的 PnL 值 ，PnL 指 的 是 模 
型 所 获取 的 实际 收益 与 实际 损失 的 差 值 ， 代 表 了 模型 的 日 度 表 现 变动 情况 (注意 ， 是 差 值 
而 不 是 比例 值 ) ， 从 计算 上 来 看 就 是 今天 的 表现 值 减 去 昨天 的 表现 值 。 图 6-13 展示 了 两 个 
模型 的 累积 PnL 值 。 




















PaL 同样 可 以 应 用 到 其 他 的 很 多 场合 用 来 评价 模型 的 好 坏 一 一 基本 思想 就 是 画 出 去 均值 的 
预测 值 以 及 去 均值 的 实际 值 的 累积 和 。( 去 均值 也 就 是 将 序列 的 每 一 个 观测 值 减 去 其 序列 
均值 后 得 到 的 序列 值 。)) 也 就 是 说 ， 我 们 想 知道 所 有 模型 是 否 一 致 性 地 好 于 那个 “最 轧 压 
的 模型 ”: 也 就 是 用 均值 预测 一 切 的 模型 。” 


如 有 果 模型 的 PnL 图 看 起 来 有 一 直 向 右上 方 前 进 ， 则 代表 的 模型 一 直 表 现 良 好 。 如 果 走 势 太 
参差 不 齐 ， 你 的 模型 可 能 有 未 知 的 不 稳定 性 。 

















注 6: 从 PnL 图 中 我 们 可 以 解读 出 当前 使 用 的 模型 在 样本 期 内 是 否 一 致 地 优 于 市 场 的 平均 表现 。 
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预测 值 与 实际 值 


— 表现 一 致 好 的 小 手笔 
— 表现 差强人意 的 大 手 
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6-13: 两 个 理论 模型 的 累积 PnL 值 对 比 图 ( 另 见 彩 插图 6-13) 


6.5.8 聊 聊 回归 模型 

金融 数据 中 有 用 的 信息 含量 十 分 稀少 ， 如 果 自 认为 手中 掌握 的 信息 可 以 助 你 打败 市 场 ， 还 
需 三 思 而 后 行 。 然 而 ， 从 形式 上 倒 不 妨 把 金融 数据 的 时 间 轨 迹 看 作 一 个 连续 的 、 形 式 未 知 
而 复杂 的 函数 。 由 于 函数 都 可 以 用 泰勒 展开 表示 成 一 系列 成 分 相 加 的 形式 。 因 此 ， 从 形式 
上 ， 线 性 模型 似乎 比较 适用 于 对 其 建 模 。 








既然 线性 模型 似乎 是 可 行 的 ， 那 么 逻辑 回归 模型 适用 与 否 呢 ? 可 以 说 毫 无 用 处 ， 其 对 于 金 
融 建 模 的 价值 基本 为 0。 因 为 对 于 金融 数据 来 说 ， 我 们 需要 的 是 数据 的 真实 值 ， 越 精确 越 
好 。 逻 辑 回归 的 二 元 输出 值 ， 对 于 理解 本 来 信息 量 就 微乎其微 的 金融 数据 来 说 ， 无 非 是 火 
Erem. 


线性 模型 似乎 适用 于 对 金融 数据 的 建 模 ， 而 且 对 于 “线性 ”二 字 的 理解 不 能 思维 定 势 。 "£k 
性 ”， 从 统计 学 意义 上 来 说 ， 是 对 参数 的 线性 ， 也 就 是 ， 你 可 以 对 回归 变量 取 平 方 或 者 开 方 
项 ， 甚 至 是 交叉 乘积 项 ， 只 要 这 样 项 目 最 后 是 加 总 在 一 起 用 来 建 模 ， 都 可 以 称 作 线性 模型 。 


6.5.9 先 验 信息 量 
先 验 信息 量 指 在 模型 建立 之 前 ， 根 据 历史 、 行 业经 验 或 者 主观 判断 ， 对 于 某 些 参数 的 分 布 做 
出 主观 性 预 判 ， 这 种 预 判 被 数学 化 之 后 并 整合 进 了 原先 的 模型 之 中 。 在 之 前 指数 平滑 的 例子 



































中 ， 我 们 假设 新 数据 要 比 旧 数据 更 加 重要 ， 因 此 权重 更 大 。 这 就 是 一 个 直观 的 先 验 信息 量 。 


除 此 之 外 ， 我 们 可 能 会 做 出 这 样 的 预 判 :“ 模 型 参数 的 变动 应 该 是 平 请 的 。” 当 我 们 想 利用 
某 些 时 间 序 列 的 已 有 观测 值 预测 未 来 值 时 ， 这 样 的 预 判 可 能 是 有 用 的 。 比 如 下 面 的 一 个 时 
间 序 列 模型 ; 








y = Fi = Qo + @aiFi-ı + @2Fi-2 + € 


其 中 ， 对 于 时 点 1 的 预测 值 (y=F,)， 模 型 只 用 到 了 前 两 期 的 历史 观测 值 。 当 然 ， 如 果 认 为 
更 多 的 历史 数据 可 能 对 预测 更 加 有 用 ， 模 型 也 可 以 引入 更 多 的 滞后 项 。 混 后 项 越 多 ， 模 型 
引入 的 自由 度 (degrees of freedom) 越 大 ， 我们 可 以 通过 引入 更 强 的 先 验 信息 量 来 抵消 这 
些 自由 度 。 简 言 之 ， 先 验 信息 可 以 降低 模型 的 自由 度 。 


有 关 模 型 参数 关系 的 先 验 信息 量 的 设 定 (在 这 个 时 间 序 列 模型 的 例子 中 就 是 连续 相 邻 数据 
点 之 间 的 关系 ) 可 以 通过 在 回归 模型 佑 计时， 在 原 数 据 协 方差 矩阵 上 加 一 个 矩阵 的 形式 完 
成 。 欲 了 解 更 多 信息 ， 请 参考 : http://goo.gl/gJURp6。 





6.5.10 ”一 个 小 例子 

分 析 时 间 序 列 时 ， 一 个 常用 的 统计 量 叫 作 “ 自 回归 系数 ”"， 可 以 帮助 我 们 客观 地 确定 合适 
的 请 后 项 阶 数 。 比 如 ， 图 6-14 就 是 一 个 时 间 序 列 的 自 回归 系数 图 ， 图 中 的 澡 后 阶 数 超 过 了 
40， 达 到 了 100 阶 。 
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图 6-14. 某 时 间 序 列 的 100 阶 自 回 归 系 数 图 
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自 回归 系数 的 计算 很 简单 。 如 果 要 计算 1 阶 自 回归 系数 ， 首 先 需要 将 时 间 序 列 整 体 后 移 一 
位 (其 长 度 要 与 原 序 列 相同 )， 原 序列 和 后 移 序列 之 间 的 简单 相关 系数 即 代 表 原 序列 的 一 
阶 自 回 归 系 数 。 


从 图 中 可 以 看 出 ， 在 40 阶 过 后 序列 的 自 回归 系数 已 经 接近 0.2， 这 意味 着 如 果 想 预测 下 一 
个 值 ， 使 用 之 前 的 40 个 观测 值 已 经 足够 。 然 而 ，40 个 请 后 项 对 于 线性 回归 模型 来 说 还 是 
太 多 了 。 要 解决 这 样 的 问题 ， 之 前 说 到 的 先 验 信息 量 则 大 有 用 武之 地 。 






































在 模型 估计 的 时 候 ， 我 们 经 常会 通过 最 小 化 一 个 风险 函数 来 得 到 最 优 估 计 值 ， 这 个 风险 函 
数 代表 了 模型 拟 合 的 效果 。 从 风险 函数 的 角度 来 理解 先 验 信息 是 一 个 不 错 的 角度 : 结合 了 
先 验 信息 的 风险 函数 也 称 作 “惩罚 函数 ， 举 例 来 说 ， 对 于 普通 的 最 小 二 乘 回归 来 说 ， 一 
个 没有 任何 先 验 信息 的 惩罚 函数 就 是 离 差 平方 和 项 : 


FØ = 9 0i- xp = -xp Y- xp) 
为 了 得 到 最 小 的 F, X FREF B 的 一 阶 偏 导数 并 令 其 为 0， 则 得 到 的 唯一 最 优 解 : 
B 三 (xx) xy 
对 于 离 差 平方 和 项 F(B)， 可 以 加 入 相应 的 先 验 信息 量 以 改善 模型 的 拟 合 效果 。 比 如 说 ， 先 
验 信息 表示 : 模型 滞后 项 中 的 参数 估计 的 总 体 规模 不 能 过 大 ， 则 需要 “惩罚 ”过 大 的 参数 
估计 值 。 体 现在 离 差 平方 和 中 就 等 同 于 添加 了 一 个 “惩罚 项 ”(Z 1 55) ， 


J 


RO - 30 - BY + R= 0 - xD O - 3B + AIB AIB) 



































根据 相同 的 微 积 分 求 极 值 的 方法 ， 同 样 可 以 得 到 8 的 最 优 解 为 : 

Bi - Gx-N- ŽD xy 
HEA, ATRAI, UIME TE e fi H EN ETE] FA BAI y ENE 
xx 加 了 一 个 对 角 和 矩阵 N - YY。 细心 的 读者 会 发 现 ， 这 个 对 角 和 矩阵 其 实 本 质 上 是 单位 矩阵 的 


AU. EL 
TEIR 








很 明显 ， 先 验 信息 的 形式 与 模型 参数 的 估计 值 有 着 直接 联系 。 让 我 们 再 添加 一 个 先 验 信 
息 ， 并 观察 参数 的 估计 会 产生 什么 样 的 变化 。 假 设 “ 参 数 之 间 的 变动 是 平 请 的 ”， 也 就 是 
说 ， 相 邻 滞后 项 的 参数 估计 值 之 间 的 差距 不 应 该 过 大 “，， 那 么 相应 的 离 差 平方 和 应 添加 一 个 
新 项 > (Bj 一 Bs, 








注 7: 比如 在 回归 的 例子 中 ， 离 差 平方 差 就 是 一 个 风险 函数 ， 通 过 最 小 化 离 差 平 方 和 我 们 可 以 得 到 有 关 模 型 
参数 的 最 优 估计 。 
注 8: 对 于 时 间 序 列 模 型 ， 这 同样 是 一 个 合理 的 先 验 信息 设 定 。 




















Pb) = p Q-A + 9A B) 9 P B; - Ba 
i j j 





= x (y — xB) O — xp) + 4 E B + 1P UB — MBY (IB — M) 


JEBE M FREE WAT, rfi 1 — M 在 离散 微 积分 中 称 作 离 散 微分 算 子 【参见 http://goo.gl/ 
2D4LeH， 以 查看 有 关 离 散 微 积分 的 介绍 )， 该 年 阵 中 除了 下 三 角 区 域 的 值 为 1 之 外 ， 其 他 
区 域 的 值 都 为 0。M8 的 作用 是 将 的 参数 顺序 整体 向 前 移动 一 为 ， 最 后 的 位 置 用 0 填补 ， 
这 样 的 操作 对 应 上 式 的 bj; 一 Bj+1， 这 也 是 为 什么 M 称 作 “移动 算 子 ”的 原因 。 


这 看 起 来 相当 复杂 ， 因 此 在 计算 的 时 候 就 需要 多 加 小 心 。F(B) 对 于 的 微分 要 比 之 前 的 复 
杂 很 多 ， 这 里 涉及 向 量 微 积分 的 内 容 ， 需 要 知道 : 











BHM L y 90 
op op 
FER FD) 对 于 B 的 偏 导 数 : 
Eh _ 130—x9 (v -8) | s 388 ,2. 90 ~ MB ( - MD) 
op N op op 9p 





- xoxo xp) - 24 - B - 20 0 — My 0 — MB 











b= xtN RIAN e A-M UIM) xy 
5 B, 的 区 别 之 处 就 在 于 我 们 在 协 方差 矩阵 xx 上 又 添加 了 新 的 项 Ny. G-M Y O-M), Z 
代表 了 之 前 设 定 的 “参数 变动 应 该 是 平滑 的 ” 先 验 信息 对 最 终 参 数 估计 的 影响 。 注 意 ， 对 
PREBE d-M)YU-M) 的 上 下 两 条 次 对 角 线 上 的 元 素 都 为 1， 而 主 对 角 线 上 的 元 素 为 2。 也 就 
是 说 ， 当 我 们 在 调整 yj 时 4 也 应 该 做 相应 调整 ， 因 为 它们 俩 之 间 具 有 联合 变动 关系 。 








先 验 信息 与 高 阶 导数 
p^ 。 刚 才 先 验 信息 的 设 定 只 涉及 了 一 阶 导数 。 实 际 上 ， 你 也 可 以 在 二 阶 导 数 或 者 
更 高 阶 导数 上 设 定 先 验 信息 。 如 果 在 二 阶 倒数 上 设 定 先 验 ， 则 相应 的 0-M) 
变 为 UL-M)。 以 此 类 推 ， 高 阶 导 的 先 验 信息 对 应 (I-M) FÉ HT, 




















那么 ， 到 现在 为 止 ， 我 们 的 模型 到 底 是 什么 呢 ?” 从 参数 来 看 ， 我 们 需要 估计 平滑 指数 ), 另 
外 还 需要 估计 和 jy: 分 别 对 应 刚才 解释 过 的 xx 和 xy 项 的 移动 估计 。 因 此 ， 最 后 的 模型 
涉及 三 个 需要 估计 的 参数 : y、4 和 4。 通 常 来 说 ， 对 于 需要 多 大 的 指数 平滑 值 (y) 我 们 心 
里 大 臻 有数 ,但 是 对 于 4 和 4 的 选择 则 取决 于 数据 本 身 ， 以 及 它们 之 间 的 相互 影响 。 对 这 
些 模型 参数 的 最 优化 估计 无 非 是 一 件 颇 需 工匠 精神 的 事情 : 既 要 保证 这 些 参数 的 值得 到 了 
恰当 的 优化 ， 又 要 避免 由 于 过 度 优 化 可 能 导致 的 模型 过 拟 合 问 题 。 
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6.6 练习: GetGlue 提 供 的 时 间 戳 数据 

GetGlue 公司 为 我 们 提供 了 一 个 时 间 惟 数据 集 以 供 练习 。 这 些 数据 与 用 包含 用 户 签 和 人 并 评 
论 电视 和 电影 节目 的 时 间 惟 事件 。 

原 数据 (http://bit.ly/1aL8XS0) 的 时 间 跨 度 从 2007 年 到 2012 年 ， 其 中 每 个 用 户 对 应 一 份 
数据 。 数 据 量 占 到 GetGlue 公司 用 户 数据 库 总 量 的 3%， 但 即便 如 此 ， 解 压缩 之 后 的 数据 
也 有 11 GB。 


运行 下 面 的 R 代码 可 以 看 到 该 数据 库 的 前 10 条 
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# 
# 作者 : Jared Lander 
# 


require(rjson) 
require(plyr) 





# 导入 数据 
dataPath <- "http://getglue-data.s3.amazonaws.com/ 
getglue sample.tar.gz" 





# 建立 连接 以 解压 缩 得 到 的 文件 
theCon «- gzcon(url(dataPath)) 





# 读 取 前 10 行 数据 信息 
n.rows <- 10 
theLines <- readLines(theCon, n=n.rows) 





# 检查 数据 结构 

str(theLines) 

# 注意 ， 数 据 向 量 的 第 一 个 元 素 与 其 他 行 有 所 不 同 
theLines[1] 














# 除了 第 一 个 元 素 ， 应 用 fromJSON 到 向 量 剩 下 的 所 有 元 素 
theRead <- lapply(theLines[-1], fromJSON) 





# 转换 成 数据 框 的 形式 
theData <- ldply(theRead, as.data.frame) 





# 检查 刚才 所 有 操作 的 最 终 效 果 
View(theData) 


我 们 给 出 以 下 的 分 析 步 又 ， 仅 供 参 考 。 

(1) 先 读 取 1000 行 的 数据 并 仔细 逐条 分 析 。 在 对 这 1000 个 数据 有 了 充分 的 了 解 之 后 ， 可 
以 考虑 读 进 10 万 行 数据 或 者 上 百 万 行 数据 做 更 深入 地 分 析 。 

(2) 做 探索 性 分 析 ， 尤 其 是 能 够 汇总 并 尝试 回答 以 下 儿 个 问题 。 
。 用 户 的 可 能 行为 有 多 少 种” 用户 行为 的 大 概 分 布 如 何 ? 








。 数据 中 有 多 少 个 不 同 的 用 户 ? ” 


。 BE 10 部 电影 最 受 欢 迎 
。 在 2011 年 有 多 少 部 电 


(3) 根据 探索 的 结果 ， 尝 试问 
(4) 尝试 回答 自己 的 5 个 新 问 





























? 
视 和 电影 节目 ? 


自己 5 个 新 问题 。 


题 。 








(5) 可 视 化 ! 如 果 觉 得 数据 中 的 某 个 特征 比较 有 意思 ， 尝 试 将 它们 画 出 来 以 更 好 地 展示 给 


自己 或 者 别人 看 。 


练习 : 金融 建 模 


关于 金融 建 模 方面 ， 尝 试 完成 以 下 任务 。 


(1) 获取 数据 : 从 雅虎 网 站 的 财经 板块 下 载 一 只 至 少 有 8 年 观测 长 度 的 股票 每 日 价格 和 成 
交 量 数据 。 这 是 最 起 码 的 一 步 ， 如 果 你 不 知道 怎么 做 ， 可 以 到 网 上 搜索 一 下 。 


Q) 计算 该 股票 的 日 度 对 数 收 





益 率 。 


(3) 用 同样 的 方法 计算 对 数 成 交 量 的 变动 值 ， 并 与 收益 率 进行 比较 。 


(4) 对 收益 率 序列 和 成 交 量 序 
真实 值 对 比 ， 如 果 预 测 值 

















列 分 别 建 立 线性 回归 模型 ， 
十 分 准确 ， 没 准 你 能 从 中 赚 一 笔 。 如 有 果 你 还 


























并 使 用 至 二 阶 讲 后 项 。 用 预测 值 与 
能 尝试 建立 因果 模 


型 ， 对 数据 进行 标准 化 操作 ， 或 者 在 模型 中 使 用 指数 平 请 ， 你 已 经 迈 入 高 手 行列 了 。 





(5) 画 出 模型 的 累积 PnL 图 ， 











并 与 书 中 的 图 6-13 比较 。 








注 9: 需 根 据 用 户 的 ID 信息 分 辩 重 复 用 户 。 
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第 7 章 


从 数据 到 结论 





想 知 道 一 些 公司 是 如 何 从 数据 中 提取 信息 的 吗 ? 


本 章 将 由 Kaggle 公司 的 William Cukierski 以 及 谷歌 的 David Huffaker 为 大 家 现身说法 。 


7.1 William Cukierski 


William 在 康 奈 尔 大 学 获得 物理 学 学 士 学 位 ， 博 士 毕业 于 罗 格 斯 大 学 ， 研 究 领域 是 生物 
医学 工程 ， 人 研究 方 向 主攻 癌症 的 病理 图 像 研 究 。 在 撰写 博士 论文 间 际 ，William 参加 了 
Kaggle 上 的 一 些 数据 分 析 竞 赛 ， 并 取得 过 骄 人 上 成绩。 现在， 他 在 为 Kaggle 工作 。( 下 文 会 
有 关于 Kaggle 以 及 Kaggle 竞赛 的 详细 介绍 。) 


William 首先 会 为 大 家 介绍 一 些 关 于 数据 科学 竞赛 和 数据 分 析 众 包 业 务 的 内 容 。 另 外 ， 他 
还 会 详细 介绍 有 关 Kaggle 竞赛 平台 的 细节 。 最 后 的 重头 戏 是 关于 特征 提纯 和 特征 选择 的 内 
容 。 特 征 提纯 是 将 原始 数据 中 的 垃圾 信息 或 者 变量 剔除 ， 让 数据 更 加 “干净 "。 对 于 数据 
分 析 来 说 ， 数 据 的 质量 会 直接 影响 模型 的 预测 效果 。 特 征 选 择 是 在 数据 提纯 之 后 ， 根 据 数 
据 和 研究 问题 的 特点 ， 通 过 提取 、 重 构 、 组 合 等 方式 构造 对 于 建 模 有 用 的 预测 量 。 


7.1.1 FRNA: 数据 科学 竞赛 

数据 科学 竞赛 是 机 器 学 习 领域 高 手 们 切磋 武艺 的 常见 形式 ， 从 其 出 现 至 今 已 经 有 一段 历史 
了 。 一 般 来 说 ， 主 办 方 会 设计 一 个 较为 前 沿 的 机 器 学 习 任务 ， 并 免费 提供 分 析 用 的 数据 。 
参赛 人员 /队伍 被 要 求 在 短 时 间 内 (通常 是 几 周 或 者 几 个 月 ) 设计 出 相应 的 机 器 学 习 预 测 
模型 。 至 于 竞赛 的 任务 则 多 种 多 样 ， 有 些 竞赛 要 求 设计 算法 ， 预 测 人 们 遭遇 车 祸 的 可 能 
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性 ， 或 者 人 们 喜欢 某 部 电影 的 可 能 性 等 。 除 了 免费 提供 数据 、 制 定 比赛 规则 和 注意 事项 以 
外 ， 主 办 方 会 公布 统一 的 模型 评价 标准 以 及 参赛 者 提交 模型 的 规则 等 。 


比较 著名 的 数据 科学 竞赛 有 一 年 一 度 的 KDD 竞赛 Can A BURG ETE), Netflix 公 
司 的 Netflix Prize 竞赛 (奖金 高 达 100 万 美元 ， 前 后 持续 了 两 年 )， 以 及 我 们 待 会 要 详细 介 
绍 的 Kaggle 竞赛 。 


关于 数据 科学 竞赛 有 必要 在 这 里 做 三 点 声明 。 首 先 ， 作 为 数据 科学 生态 系统 的 重要 组 成 部 
分 ， 数 据 科学 竞赛 在 一 定 程度 上 推动 了 数据 科学 的 发 展 。 作 为 数据 科学 家 ， 应 该 密切 关注 
数据 科学 竞赛 的 最 新 动态 。 


其 次 ， 数 据 科学 竞赛 的 内 容 和 形式 在 一 定 程度 上 定义 了 数据 科学 本 身 。 竞 赛 的 不 断 发 展 给 
数据 科学 的 应 用 建立 了 很 好 的 内 容 库 ， 同 时 也 在 不 断 地 更 新 着 数据 科学 的 定义 。 当 然 ， 这 
并 不 代表 数据 科学 竞赛 的 内 容 直 接 定义 了 数据 科学 的 内 容 ， 只 是 说 ， 在 一 定 程度 上 ， 竞 赛 
的 内 容 为 了 解 和 推广 数据 科学 本 身 提供 了 鲜 活 的 材料 : 数据 科学 到 底 是 在 处 理 什么 样 的 问 
题 ， 数 据 到 底 长 什么 样子 ， 数 据 科 学 忽视 了 哪些 因素 等 。 


第 三 点 ， 数 据 科学 竞赛 的 结果 往往 都 会 以 个 人 或 者 团队 排名 的 形式 公布 ， 排 名 靠 前 的 往往 
被 视 为 顶尖 的 数据 科学 家 。 然 而 事实 上 ， 很 多 优秀 的 数据 科学 家 ， 尤 其 是 女性 ， 并 没有 参 
加 任何 形式 的 数据 科学 竞赛 。 这 代表 她 们 不 可 能 获得 任何 排名 ， 但 她 们 却 同 样 优秀 。 因 
此 ， 我 们 应 该 客观 理性 地 看 待 竞赛 的 排名 。 












































数据 科学 竞赛 :到 底 谁 在 参与 竞赛 

ERAS 名 种 各 样 的 数据 科学 竞赛 看 来 十 分 正规 、 程 式 化 并 且 有 条 不 亲 。 主 办 方 已 经 
准备 好 了 数据 、 模 型 的 评价 标准 以 及 需要 解决 的 问题 ， 甚 至 对 于 建 模 之 后 如 
何 可 视 化 和 报告 都 有 详细 的 指导 。 比 如 说 Kaggle 公司 的 数据 科学 家 就 是 在 
做 这 些 事情 ; 找 有 意义 的 数据 ， 做 好 基本 的 清理 工作 ， 尝 试 建 模 ， 寻 找 合理 
的 评价 标准 ， 构 思 有 意义 的 分 析 问 题 等 。 这 些 工作 本 身 应 该 成 为 数据 科学 的 
一 部 分 ， 应 该 成 为 数据 科学 家 必 备 的 技能 。 而 主办 方 似乎 把 这 些 事 都 办 得 妥 
妥 的 ， 数 据 科学 竞赛 中 “数据 科学 ”的 味道 已 经 被 大 大 地 弱化 了 。 









































7.1.2 背景 介绍 : 众 包 模式 
这 里 讨论 以 下 “ 众 包 模 式 ”的 概念 ， 总 体 来 说 有 两 种 众 包 模型 。 第 一 种 叫 作 分 布 式 众 包 模 
式 ， 其 典型 代表 是 维基 百科 。 这 种 众 包 模式 适合 任务 相对 简单 而 贡献 来 源 分 布 较 广 的 情 
形 。 在 维基 百科 上 ， 来自 世界 各 个 角落 的 人 都 可 以 贡献 内 容 ， 由 志愿 者 组 成 的 幕后 团队 负 
责 管理 和 控制 内 容 的 质量 。 维 基 百 科 制 定 了 一 套 完整 的 内 容 质量 管理 系统 。 这 种 众 包 模式 
的 结果 是 集 众人 的 知识 和 力量 搭建 了 一 个 内 容 可 信和 度 极 高 的 在 线 百 科 全 书 。 
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另外 一 种 众 包 模型 解决 的 是 更 加 专业 、 困 难 和 有 具体 的 问题 。Kaggle、DARPA、InnoCentive 
等 很 多 公司 都 在 从 事 这 样 的 众 包 业务 。 这 些 公 司 将 某 个 较为 专业 的 问题 公布 于 众 ， 往 往 只 
有 很 少 的 一 部 分 人 具备 解决 该 问题 的 能 力 ， 因 此 竞争 只 在 这 一 小 群 人 之 中 展开 。 获 胜 者 往 
往 可 以 得 到 可 观 的 现金 回报 ， 当 然 还 有 随 之 而 来 的 荣誉 和 业界 的 肯定 。 


后 者 这 样 的 众 包 模型 ， 其 最 大 的 短 板 是 是 参与 者 数量 太 少 。 究 其 原因 ， 首 先 很 多 竞赛 往往 没 
有 或 者 缺乏 合理 公正 的 模型 评价 标准 。 在 一 些 竞 赛 中 ， 对 于 输赢 的 评价 标准 往往 不 够 客观 ， 
掺 杂 着 个 人 主观 因素 。 比 如 说 ， 你 的 模型 是 好 是 坏 单单 由 评委 说 了 算 ， 而 评委 的 喜好 也 各 不 
相同 。 基 次， 参赛 者 的 沉没 成 本 相当 高 ， 因 为 只 有 获得 名 次 才 有 奖励 和 荣誉 ， 只 有 金字 塔 顶 
的 人 才能 拔 得 头筹 ， 往 往 还 需要 一 定 的 运气 。 这 些 都 直接 导致 了 数据 科学 竞赛 的 参与 者 容 容 。 


组 织 问 题 也 同样 妨碍 了 数据 科学 竞赛 的 健康 发 展 。 有 些 随意 设计 、 组 织 混乱 的 竞赛 往往 让 
参赛 者 分 析 一 些 毫 无 意义 、 枯 燥 无 比 的 数据 。 这 些 组 织 者 往往 认为 无 论 出 什么 题 、 给 多 少 
奖金 ， 参 赛 者 都 会 摩拳擦掌 ， 跃 跃 欲 试 。 这 些 无 意义 的 竞赛 严重 打消 了 数据 科学 家 们 的 积 
极 性 。 有 些 竞赛 的 题目 要 么 过 于 庞大 ， 让 人 找 不 着 北 ， 要 么 过 于 细碎 ， 让 人 兴致 全 无 。 
既然 已 经 认识 到 了 这 么 多 妨碍 众 包 模式 发 展 的 因素 ， 我 们 可 以 预期 一 个 好 的 众 包 竞赛 首先 
应 该 精心 设计 竞赛 题目 ， 做 到 有 趣 、 可 行 义 有 实际 的 商业 意义 。 模 型 的 评价 标准 应 该 足够 
透明 和 客观 。 为 了 充分 提起 参赛 者 的 兴趣 ， 奖 金 当 然 越 高 越 好 ， 不 同名 次 奖金 的 分 配 和 颁 
发 ， 也 应 该 合理 而 透明 。 

众 包 竞赛 的 发 展 其 实 已 经 有 了 几 百 年 的 历史 ， 下 面 是 一 些 影响 力 较 大 的 竞赛 ， 让 我 们 回顾 


一 下 。 




































































公元 1714 年 , 英国 皇家 海军 因为 地 球 经 度 的 测量 问题 ' 伤 透 了 脑筋 ,于 是 拿 出 相当 于 现 
在 600 万 美元 的 奖金 征求 能 够 解决 该 问题 的 人 。 一 位 名 不 经 传 的 家 具 工 John Harrison 
巧妙 地 利用 钟表 原理 制造 了 一 种 叫 作 “经 线 仪 ” 的 工具 解决 了 这 个 问题 。 
2002 年 ， 福 克 斯 电视 网 络 公司 推出 大 型 电视 选秀 节目 “美国 偶像 ”， 意 在 诲 选 出 下 一 代 
流行 歌 王 / 歌 后 。 该 节目 开创 了 电视 选秀 节目 的 先河 ， 选 手 在 一 轮 又 一 轮 的 淘汰 赛 中 比 
试 歌喉 ， 最 终 获 胜 者 可 得 到 巨额 奖金 。 
X-prize 公司 (http//www.xprize.org/) 是 一 家 专注 于 大 型 科学 竞赛 的 推广 公司 。 这 些 竞 
赛 的 内 容 往往 涉及 与 人 类 生存 息息相关 的 重大 科学 问题 ， 一 旦 解决 ， 可 以 为 传统 产业 广 
入 新 生 血液 ， 甚 至 会 开创 一 个 全 新 的 产业 。 因 此 ， 竞 赛 的 另 一 大 特色 就 是 : 奖金 奇 高 。 
其 中 的 Ansairi X-prize 是 一 个 空间 科学 竞赛 ， 其 奖金 高 达 1000 万 美元 。 这 样 的 问题 往 
往 需要 科学 界 的 顶级 专家 ， 花 费 大 量 的 时 间 才 能 解决 。 因 此 ， 这 样 的 众 包 竞赛 由 于 门槛 
高 ， 参 与 人 数 少 ， 往 往 要 持续 很 长 的 时 间 。 但 是 ， 这 对 于 相关 高 精 尖 领域 科学 的 发 展 
是 明显 有 推波助澜 的 作用 。 


























过 
还 





DE. 如 何 确 定 船 舶 在 东西 方向 的 具体 位 置 。 
注 2: 当然 ， 也 可 能 没 表 情 。 
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关于 众 包 和 土耳其 机 器 人 


众 包 和 土耳其 机 器 人 这 两 个 名 词 在 数据 科学 领域 悄然 地 出 现 ， 并 且 越 来 越 多 地 引起 人 
们 的 关注 和 重视 。 


虽然 “ 众 包 ”一 词 的 正式 出 现 是 在 2006 年， 但 其 概念 本 身 却 并 不 新 鲜 : 针对 一 个 
问题 ， 多 人 一 起 各 自 独立 提出 解决 方案 ， 综 合 一 起 就 会 得 到 一 个 更 佳 的 方案 。James 
Suriowiecki 的 The Wisdom of Crowds (《 群 体 的 智慧 》)) (Anchor, 2004) 一 书 详细 讲述 
了 众 包 的 理论 含义 ， 其 核心 观点 是 : 三 个 臭 皮 匠 项 过 一 个 诸葛 亮 。 当 然 ， 群 体 智 慧 发 
挥 作用 需要 一 定 的 条 件 ， 其 中 首要 的 是 “独立 性 ” ， 也 就 是 群体 中 每 个 个 体 应 该 独立 思 
考 并 提出 自己 的 解决 方案 ， 而 不 是 采取 群体 讨论 的 方式 给 出 小 组 答案 。 当 然 ， 并 不 是 
所 有 的 问题 都 适合 交 给 三 个 “ 臭 皮 匠 ”来 解决 ， 有 些 问 题 还 是 需要 “诸葛 襄 ”( 领 域 专 
家 ) 的 帮助 。 


亚马逊 推出 的 “土耳其 机 器 人 ”业务 是 线 上 众 包 服务 的 代表 。 比 如 ， 表 情 识 别 对 于 人 
眼 来 说 是 个 很 简单 的 问题 ， 看 一 眼 就 知道 表情 是 “开心 ”还 是 “难过 ” "， 但 这 对 于 
机 器 学 习 来 说 是 个 极 富 挑 战 性 的 问题 。 对 于 表情 识别 来 说 ， 监 督 性 学 习 的 目的 就 是 
给 定 一 批 图 像 的 标签 (是 “开心 ”或 “难过 ”)， 通 过 算法 学 习 和 识别 新 图 像 中 的 表情 
是 “开心 ”还 是 “难过 ”。 问 题 是 ， 如 何事 先 得 到 一 批 已 经 做 好 标签 的 图 像 呢 ? 这 就 是 
“土耳其 机 器 人 ”业务 的 出 发 点 ， 因 为 这 样 的 贴标签 任务 只 能 通过 人 工 手动 完成 ,“ 土 
耳 其 机 器 人 ”业务 就 是 为 用 户 提供 图 像 贴 签 服务 。 网 络 上 的 每 一 个 人 都 可 以 注册 成 为 
亚马逊 的 “土耳其 机 器 人 ”， 只 要 你 有 闲暇 时 间 就 可 以 选择 坐 下 来 给 一 些 图 像 贴标签 ， 
正好 还 可 以 赚 点 外 快 。 因 为 这 样 的 任务 没有 太 多 技术 含量 ， 也 比较 枯燥 乏味 ， 固 冠 名 
为 “机 器 人 ”。 当 然 ， 为 了 防止 “机 器 人 ” 们 闭 着 眼睛 瞎 填 ， 亚 马 逊 设计 了 严格 的 质量 
控制 系统 。 一 旦 发 现 作 头 ， 你 就 永远 失去 了 做 “机 器 人 ” 赚 外 快 的 资格 。 

“土耳其 机 器 人 ”看 似 是 人 的 体力 劳动 ， 但 其 终极 目标 是 结合 机 器 学 习 算 法 和 少数 人 的 
劳动 成 果 ， 最 终 减 少 了 大 多 数 人 的 重复 性 劳动 量 。 因 为 那些 被 贴 好 标签 的 数据 会 被 各 
种 各 样 的 监督 性 机 器 学 习 算 法 用 来 预测 大 量 的 未 被 贴标签 的 数据 。 














7.2 Kaggle 模 式 


数据 科学 家 走 在 通 往 无 所 不 知 的 大 路 上 ， 走 到 尽头 才 发 现 ， 自 己 一 无 所 知 。 
Will Cukierski 





Kaggle 的 口号 是 “让 数据 科学 成 为 一 项 竞技 赛事 "。Kaggle 是 其 他 公司 与 数据 科学 家 之 间 
的 联络 人 。 比 如 说 ,一 家 公司 想 将 数据 分 析 任 务 众 包 给 数据 科学 家 ，Kaggle 会 挠 下 该 活 并 
收取 一 笔 佣金 。 因 为 Kaggle 提供 的 数据 科学 竞赛 平台 吸引 了 来 自 世界 各 个 角落 的 数据 科学 
高 手 ， 这 些 众 包 的 任务 只 需要 交 给 自家 平台 上 的 数据 科学 家 即 可 。 
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当然 ，Kaggle 公司 内 部 也 是 藏 龙 卧 虎 之 地 ， 许 多 顶尖 的 数据 科学 家 都 在 Kaggle TE, Will 
就 是 其 中 的 一 员 。 提 供 分 析 任务 和 数据 ， 并 付 钱 给 Kaggle 的 是 需要 数据 分 析 众 包 的 公司 ， 
而 解决 这 些 任 务 的 是 Kaggle 平台 吸引 的 来 自 世界 各 地 的 数据 科学 家 。Kaggle 的 数据 科学 
平台 ,任何 人 都 可 以 注册 参赛 ， 基 本 没有 门槛 限制 。 下 面 我 们 会 分 别 从 参赛 者 和 需求 方 公 
司 的 角度 分 析 一 下 Kaggle 的 业务 模式 。 


7.2.1 Kaggle 的 参赛 者 

在 Kaggle 的 数据 竞赛 中 ,参赛 者 可 以 拿 到 一 个 训练 数据 集 和 一 个 测试 数据 集 ;。 竞 赛 的 题目 
大 多 数 是 有 关 监督 性 机 器 学 习 的 ， 也 就 是 说 在 训练 数据 集中 ，x y 的 值 都 是 给 定 的 ， 用 
来 训练 监督 性 学 习 算法 。 测 试 数据 集中 只 会 提供 x， 不 提供 y。 参 赛 者 在 训练 数据 集 上 训练 
模型 ， 并 将 模型 应 用 于 测试 数据 集 ， 得 到 预测 的 值 。 如 果 参 赛 者 对 模型 的 效果 满意 ， 可 
以 在 Kaggle 平台 上 提交 预测 的 y 值 。Kagegle 的 后 台 系统 会 根据 事先 设 定好 的 模型 评价 标 
准 ， 比 较 参 赛 者 提供 的 y 值 和 真实 y 值 的 差距 ， 并 给 出 参赛 者 的 实际 得 分 值 。 在 这 个 过 程 
当中 ， 参 赛 者 不 需要 上 传代 码 而 只 需要 上 传 模型 的 预测 值 ， 因 此 Kaggle 并 不 在 意 你 用 什么 
分 析 软件 。 当 然 ， 最 终 的 获胜 者 需要 提供 代码 。 测 试 数据 集中 的 x 值 虽然 不 包含 真实 的 y 
值 信息 ， 却 也 十 分 重要 ， 它 无 论 在 变量 个 数 、 含 义 和 格 式 方面 都 和 训练 数据 集中 的 x 值 完 
全 一 样 。 为 了 保证 比赛 绝对 公正 ， 尽 量 降低 作 效 的 可 能 性 ， 在 竞赛 截止 日 期 之 后 ，Kagele 
会 用 第 三 个 数据 集 + 测试 参赛 者 最 终 的 模型 效果 , 并 据 此 判定 最 终 的 排名 。 这 个 数据 集 无 论 
是 x 值 还 是 y 值 ， 参 赛 者 都 无 从 得 知 ， 从 而 可 以 最 大 程度 上 保证 数据 的 独立 性 和 模型 效果 
的 客观 性 。5 






























































为 了 防止 参赛 者 频繁 地 提交 ，Kaggle 的 竞赛 一 般 限 制 参赛 者 一 天 最 多 只 能 提交 5 次 ， 每 个 
竞赛 持续 儿 周 到 几 个 月 不 等 ， 甚 至 更 长 。 每 次 提交 ，Kaggle 可 以 迅速 计算 出 模型 的 效果 并 
通过 排行 榜 的 形式 反馈 给 参赛 者 。 排 行 榜 上 可 以 看 到 每 个 参赛 者 的 名 字 和 最 后 提交 的 模型 
的 预测 误差 。 如 果 一 个 赛事 有 足够 多 的 参赛 者 ， 可 以 看 到 图 7-1 中 那样 “前 赴 后 继 ” 的 壮 
观 场 景 。 只 要 一 个 参赛 者 的 模型 有 了 细微 的 改进 ， 别 的 队伍 会 迅速 跟 进 。 比 赛 的 效果 很 明 
显 ， 每 个 参赛 者 的 模型 效果 在 比赛 期 间 都 有 或 多 或 少 的 改进 ， 最 后 的 冠军 凭借 0.791 的 模 
型 准确 度 拔 得 头筹 。 可 以 想象 ， 如 果 没 有 这 样 一 个 竞赛 平台 而 只 是 单干 的 话 ， 数 据 科 学 家 
不 断 改进 模型 的 本 能 和 冲动 很 难 被 激发 出 来 。 

























































































注 3: 需要 同意 一 个 数据 使 用 协议 。 

注 4: 不 同 于 参赛 者 拿 到 的 数据 集 ， 也 不 是 竞赛 期 间 Kaggle 后 台 评 分 用 的 数据 集 。 

注 5: Kaggle 在 竞赛 期 间 会 设立 排行 榜 ， 在 排行 榜 上 的 获胜 者 并 不 是 最 终 的 获胜 者 。 因 为 排行 榜 的 结果 来 
自 于 提供 给 参赛 者 的 测试 数据 集 ， 最 后 的 独立 数据 测试 结果 决定 了 最 终 的 冠军 归属 。 
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中 162 submitted improvements by 31 teams as of December 11 2012 12:38 AM 队伍 和 得 分 情 况 






























































& 7-1: 该 图 出 自 Chris Mulligan, 他 是 Rachel 班 里 的 学 生 。 该 图 很 好 地 描述 了 每 个 参赛 个 人 /队伍 
在 比赛 期 间 ， 模 型 的 进化 情况 ( 另 见 彩 插图 7-1) 


这 样 “ 前 起 后 继 ” 改 进 模型 的 场景 固然 会 带 来 预测 效果 更 好 的 模型 ， 但 同样 也 会 带 来 更 加 
复杂 的 模型 。 为 了 不 断 改 进 模型 ,参赛 者 会 使 出 浑身 解数 。 这 也 是 为 什么 一 般 的 竞赛 至 多 
只 会 持续 数 周 或 者 数 月 的 时 间 ， 因 为 模型 的 预测 精度 总 有 上 限 ， 在 进化 一 段 时 间 之 后 就 会 
进入 瓶颈 期 ， 要 想 提 高 模型 的 精度 ， 参 赛 者 会 把 模型 打造 得 越 来 越 复杂 。 以 Netflix Prize 
为 例 ， 这 个 为 期 两 年 的 竞赛 ， 其 最 后 的 获胜 模型 由 于 过 于 复杂 ，Netflix 公司 都 没有 在 实际 
产品 开发 中 应 用 该 模型 。” 








7.8.2 ”Kaggle 的 客户 
Kaggle 的 客户 是 一 些 需 要 数据 分 析 的 公司 ， 那 么 这 些 公司 为 什么 愿意 付 钱 给 Kaggle 呢 ? 
原因 很 简单 ， 因 为 Kaggle 的 平台 上 有 许多 活跃 度 很 高 的 数据 科学 家 们 。 一 些 公司 存储 了 海 








注 6: 当然 ， 奖 金 还 是 如 数 发 给 了 获胜 队伍 。 
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量 的 数据 ， 并 且 每 天 都 有 大 量 的 新 数据 产生 ， 但 苦于 没有 能 够 分 析 这 些 数 据 的 科学 家 们 ， 
Kaggle 作为 中 间 人 恰好 填补 了 这 个 空白 。 个 别 公 司 会 自己 设计 数据 竞赛 吸引 数据 科学 家 
们 。Kaggle 模式 的 创新 之 处 就 在 于 ， 它 凭借 自身 的 平台 优势 ， 说 服 客户 捧 出 他 们 手中 宝贵 
的 数据 。 客 户 往往 会 欣然 接受 ， 因 为 Kaggle 平台 上 的 数据 科学 家 们 总 会 帮助 解决 令 他们 头 
疼 的 数据 分 析 问 题 。 


迄今 为 止 ，Kaggle 竞赛 已 经 为 业界 带 来 了 不 少 优秀 的 数据 分 析 解 决 方案 。Allstate 是 一 
家 汽车 保险 公司 ， 虽然 他 们 公司 内 部 已 经 有 一 只 素质 良好 的 精算 师 团 队 ， 他 们 还 是 把 数 
据 放 在 了 Kaggle 上 寻求 更 优秀 的 解决 方案 。Allstate 给 出 的 分 析 任 务 是 : 给 定 汽 车 驾驶 
员 的 属性 信息 ， 预 测 其 发 生 车 祸 的 可 能 性 。Kaggle 上 一 共有 202 个 数据 科学 家 参与 了 这 
项 竞赛 ， 竞 赛 的 结果 令 人 上 膀 目 结 舌 。 冠 军 的 模型 效果 ， 以 正则 化 的 Gini 系数 为 标准 ， 将 
原本 Allstate 公司 的 模型 效果 提升 了 271% (详情 可 见 http//www.kaggle.com/solutions/ 
casestudies/allstate) 。 这 样 的 例子 还 有 很 多 ， 其 中 某 公 司 在 Kagge 上 发 布 了 奖金 额 仅 为 
1000 美元 的 竞赛 项 目 ， 最 后 从 中 的 获 益 ， 据 保守 估计 ， 超 过 数 十 万 美元 。 



























































这 样 公平 吗 ? 


与 前 面 的 Allstate 例子 类 似 ， 这 些 公司 内 部 已 经 有 了 一 支 素质 良好 的 数据 分 析 团 队 ， 如 
果 这 些 公司 还 在 Kaggle 上 寻求 解决 方案 ,对 公司 内 部 的 数据 科学 家 固然 不 太公 平 。 如 
果 Kaggle 竞赛 的 获胜 模型 明显 优 司 内 部 开发 的 模型 ， 这 些 员工 很 可 能 会 被 扫地 出 门 。 


竞赛 中 只 有 排名 前 三 (甚至 第 一 名 ) 才 有 可 能 拿 到 奖金 ， 这 意味 着 绝 大 多 数 俐 在 免 
费 地 拼命 干 活 ， 而 公司 往往 会 从 Kaggle 的 获胜 模型 中 获 益 颇 丰 ， 这 对 绝 大 多 数 参 赛 的 
数据 科学 家 们 公平 吗 ? 

Kaggle 会 对 这 些 公司 收取 佣金 ， 有 些 公 司 所 公布 的 奖金 额 也 十 分 怀 慨 ， 至 于 参 不 参 
赛 ， 数 据 科 学 家 有 着 绝对 的 自主 权 。 

这 些 因 素 加 起 来 ，Kaggle 对 于 三 方 来 说 似乎 都 是 公平 的 。 真 是 这 样 吗 ? 

其 实 得 益 较 多 的 应 该 是 Kaggle 的 客户 ， 数 据 科 学 家 往往 意识 不 到 他 们 所 开发 的 模型 以 
及 花 去 的 时 间 价 值 要 远 远大 于 奖金 额 。 除 非 对 某 个 竞赛 题目 或 者 数据 由 训 得 感 兴趣 ， 
否则 在 从 事 这 个 基本 上 等 同 于 零 回 报 的 数据 竞赛 之 前 ， 数 据 科 学 家 们 还 是 要 三 思 而 
后 行 。 























最 近 Facebook 在 Kaggle 上 发 布 了 一 项 数据 科学 竞赛 ， 获 胜 者 可 以 获得 Facebook 的 面试 机 
会 。 最 后 的 参赛 人 数 达 到 了 422 人 。 我 们 认为 这 极 大 地 方便 了 Facebook 招募 优秀 的 数据 科 
学 家 ， 但 是 Cathy 却 觉 得 这 很 可 能 会 把 数据 工作 者 们 引入 歧途 : 他 们 专注 于 分 析 数 据 和 人 解 
决 回 题 ， 却 忽视 了 公司 政策 和 文化 底 强 ， 这 对 于 公司 和 员工 来 说 同样 重要 。 








Kaggle 的 作业 自动 评分 模型 


还 记得 本 书 开头 提 到 的 ， 在 哥伦比亚 大 学 开设 的 数据 科学 课 吗 ? 作为 该 课 期 末 考 核 的 
一 部 分 ， 学 生 被 要 求 建立 一 个 作业 自动 评分 系统 。 考 核 方式 完全 参考 了 Kaggle 竞赛 的 
模式 ， 学 生 之 间 也 可 以 组 队 完 成 任务 。 下 文 将 详细 介绍 该 作业 自动 评分 系统 的 内 容 ， 
数据 可 以 从 https://inclass.kaggle.com 获得 。 
训练 数据 集 是 一 批 已 经 被 老师 批改 完 的 作业 ,yy 值 是 作业 的 最 终 得 分 , x 值 是 作业 的 相 
应 特征 变量 。 测 试 集 只 有 x 值 ， 会 被 用 来 评判 模型 的 最 终 预 测 效 果 。 
竞赛 中 一 共用 到 了 5 组 不 同 的 作业 数据 集 ， 每 个 作业 数据 集 部 生成 自 一 个 单独 的 提示 
语 (prompt)。 每 篇 作业 的 总 字数 在 150 到 550 之 间 。 某 些 作业 可 能 跟 原 信息 源 相 关 ， 
而 有 些 则 与 信息 源 无 关 。 完 成 每 篇 作业 的 学 生 其 成 绩 部 在 7 到 10 之 间 。 每 篇 作业 都 由 
两 名 老师 独立 手工 批改 并 打分 。 除 了 这 些 共 同 特征 变量 ， 每 组 作业 还 有 相应 的 特色 变 
量 。 数 据 所 特意 生成 的 特异 性 旨 在 测试 评分 系统 引 营 的 灵活 程度 。 具 体 来 说 ， 数 据 集 
会 包含 以 下 几 列 : 
* id 

作业 的 独立 编号 
。 1~5 

作业 来 自 的 组 号 。 一 共有 5 组 不 同 的 作业 。 
* essay 

用 ASCH 码 表示 的 作业 的 具体 内 容 
* raterl 

第 一 个 老师 的 打分 
* rater2 

第 二 个 老师 的 得 分 
* grade 

综合 分 数 











7.3 思维 实验 : 关于 作业 上 自动 评分 系统 


我 们 在 课堂 上 问 过 学 生 们 对 作业 自动 评分 系统 持 什么 态度 ， 他 们 是 否 愿意 该 系统 去 批改 他 们 
写 的 作业 ， 以 及 这 个 系统 可 能 会 带 来 什么 样 的 好 处 和 坏处 ， 等 等 。 下 面 是 一 些 学 生 的 回答 。 























。 自动 评分 系统 更 加 客观 。 
已 经 有 研究 表明 ， 医 生 在 两 个 月 前 后 对 同一 张 X 光 片 的 诊断 会 截然 不 同 。 这 很 正常 ， 基 
为 人 的 思维 具有 不 一 致 性 。 即 便 你 认为 自己 毫 无 偏颇 ， 然 而 事实 就 是 事实 。 从 这 一 点 上 
来 看 ， 机 器 给 出 的 判断 往往 比 人 的 判断 要 更 加 客观 ， 前 后 一 致 。 机 器 学 习 其 至 已 经 被 广 
谤 应 用 在 了 癌症 研究 上 ， 要 知道 这 是 一 项 高 风险 的 任务 ， 但 是 机 器 似乎 并 不 比 人 做 得 差 。 
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机 器 过 于 程式 化 ， 因 此 缺乏 创新 能 力 ? 

机 器 评分 可 以 使 整个 批改 任务 标准 化 、 流 水 线 化 。 人 们 通常 喜欢 标准 化 的 东西 ， 这 样 
虽然 保守 ， 但 有 更 好 的 一 致 性 。 比 如 说 汽车 ， 相 比 于 手工 打造 的 汽车 ， 人 们 会 更 加 信 
任 流水 线 生产 的 汽车 ， 因 为 它 更 加 安全 可 靠 。 但 问题 是 ， 并 非 所 有 的 任务 都 适合 程式 
化 。 至 于 批改 作业 到 底 适 不 适合 标准 化 ， 这 还 是 要 考量 作业 的 内 容 、 形 式 、 难 度 等 诸多 
因素 。 




















考试 的 目的 就 只 是 要 学 生 们 写 出 好 论文 吗 ? 

这 里 假设 考试 的 形式 是 一 篇 小 型 论文 ， 通常 老师 会 给 出 详细 的 写作 大 纲 和 评分 标准 。 如 
果 严 格 地 按照 大 纲 和 标准 来 说 ， 得 高 分 并 不 是 一 件 难 事 。 那 些 培训 机 构 甚 至 专门 著 书 教 
导 学 生 们 如 何 应 试 。 那 么 这 种 应 试 技巧 有 没有 办 法 翻译 成 机 器 语言 呢 ? 一 个 可 能 的 办 法 
就 是 设计 机 器 学 习 算 法 ， 通 过 老师 给 出 的 大 纲 和 标准 ， 自 动 化 生成 论文 。 如 果真 是 这 
样 ， 教 育 过程 就 变 成 了 机 器 之 间 的 莞 技 一 一 是 学 生 和 老师 的 算法 之 间 进 行 博弈 。 而 在 这 
场 战役 中 ， 我 们 认为 学 生 的 算法 获胜 可 能 性 更 大 。 



































领域 知识 与 机 器 学 习 算 法 


领域 知识 和 机 器 学 习 并 非 水 火 不 容 的 关系 。 恰 恰 相 反 ， 数 据 科 学 问题 的 解决 离 不 开 二 
者 中 的 任何 一 个 。 然 而 Kaggle 的 主席 Jeremy Howard 先生 在 2012 年 12 月 份 的 《新 科 
学 家 》 杂 志 接 受 了 Peter Aldhous 的 专访 时 说 道 :“ 专 家 的 知识 基本 上 毫 无 用 处 ， 我 们 
根本 不 需要 。 这 下 可 把 专家 们 惹 和 者 了。 下 面 是 那 次 专访 的 实录 ， 我 们 来 听 听 他 到 底 说 
了 些 什么 。 


PA: Kaggle 比赛 的 获胜 者 和 表现 平平 者 有 何不 同 ? 


JH: 从 技术 上 来 看 ，Kaggle 比赛 获胜 的 关键 是 将 最 有 用 的 信息 交 给 模型 。 因 此 ， 你 必 
须 决 定 从 原始 数据 中 抽取 多 少 信息 、 何 种 信息 、 以 什么 样 的 方式 交 给 模型 。Kaggle 比 
赛 的 获胜 者 一 般 都 具有 强烈 的 好 奇 心 和 创新 能 力 ， 对 于 同样 的 问题 ， 他 们 擅 于 从 许多 
不 同 的 角度 解析 、 分 折 和 组 合 问 题 。 一 些 像 随 机 森林 这 样 的 算法 并 不 在 乎 你 有 多 少 想 
法 ， 只 要 你 的 想象 力 足 够 丰富 ， 只 管 喂 给 模型 就 好 了 。 随 机 森林 会 自动 使 用 那些 更 加 
有 用 的 信息 。 


PA: 这 听 起 来 与 传统 预测 模型 的 建立 过 程 完 全 不 同 ， 通 常 领域 专家 会 扮演 十 分 重要 的 
角色 ， 决 定 采 用 或 者 不 采用 哪些 特征 变量 。 这 些 专 家 对 Kaggle 有 何 评 论 ? 


JH: 真 要 我 说 的 话 ， 可 能 会 得 罪 很 多 人 。 我 想 说 的 是 ， 这 些 专家 积累 几 十 年 的 所 谓 
“领域 知识 ”基本 上 之 无 用 处 ， 我 们 在 建 模 时 根本 不 需要 领域 专家 的 帮助 。 专 家 们 所 使 
用 的 看 似 花 哨 的 模型 ， 其 效果 比 单纯 的 机 器 学 习 算 法 要 差 很 多 。 当 然 ， 这 个 观点 很 多 
人 会 鸡 矿 ， 因 为 在 过 去 几 十 年 内 ， 专 家 的 意见 总 是 主导 着 人 群 的 主流 意见 。 但 是 他 们 
总 是 花 很 长 的 时 间 讨论 一 个 变量 是 否 有 用 ， 在 细 枝 末节 上 外 牛角 类 ， 我 真 的 认为 是 在 
浪费 时 间 。 








PA: 那 你 觉得 专家 的 知识 还 能 在 哪 派 上 用 场 ? 

JH: 也 许 在 建 模 初期 会 有 用 ， 因 为 专家 们 通常 比较 擅 于 发 问 ， 他 们 可 以 帮助 我 们 提出 
更 好 的 问题 。 但 接 下 来 就 是 数据 科学 家 的 战场 ， 基 本 跟 他 们 没有 什么 关系 了 。 

PA: Kaggle 上 充斥 着 大 量 的 数据 驱动 的 、 黑 匣子 似 的 算法 ， 即 便 是 建 模 者 自己 也 不 知 
道 模型 到 底 如 何 解 释 。 你 觉得 这 种 方法 是 否 存 在 产 痛 ? 

JH: 有 些 人 认为 ， 使 用 算法 解决 问题 的 羟 端 在 于 ， 即 使 最 后 得 到 了 答案 ， 也 不 代表 着 
你 对 问题 有 更 深入 的 认识 。 但 模型 的 解释 性 果真 如 此 重要 吗 ? 我 觉得 不 然 。 算 法 会 告 
诉 你 哪些 变量 重要 ， 哪 些 变量 不 重要 ,这 已 经 足够 了 。 你 或 许 会 问 ， 这 些 变量 为 什么 
重要 ， 而 为 什么 这 些 变量 不 重要 。 我 觉得 这 些 问 题 就 很 无 趣 了 : 既然 你 已 经 得 到 了 一 
个 预测 效果 相当 好 的 模型 ， 就 不 必 再 对 模型 的 可 解释 性 吹 毛 求 疯 了 ， 这 完全 没有 什么 


7.4 ”特征 选择 


在 数据 建 模 中 ， 数 据 科学 家 从 数据 中 选取 哪些 特征 变量 ， 以 怎样 的 形式 加 入 模型 ， 这 个 过 
程 叫 作 特 征 选择 。 


特征 选择 对 模型 的 效果 往往 有 着 直接 影响 。W 记 在 被 Kaggle 招安 之 前 ， 屡 次 在 各 个 
Kaggle 数据 科学 竞赛 中 斩获 佳绩 (这 也 是 为 什么 Kaggle 会 招 他 的 原因 )， 因 此 他 对 怎样 建 
立 一 个 有 效 的 模型 有 着 充分 的 发 言 权 。 特 征 选 择 不 仅 可 以 帮助 你 在 竞赛 中 取得 好 成 绩 ， 更 
重要 的 是 ， 它 直接 的 影响 模型 或 者 算法 的 效力 。 原 始 数 据 固然 隐藏 了 所 有 的 信息 ， 但 只 
通过 特征 选择 所 取出 来 的 信息 才能 为 模型 所 用 。 


原始 数据 中 存在 大 量 的 元 余 信 息 ， 比 如 很 多 相关 性 很 大 的 变量 。 如 果 一 股 脑 得 全 放 进 模 
型 ， 必 然 不 会 有 很 好 的 效果 。 这 些 信息 需要 经 过 挑选 、 转 化 或 者 组 合 ， 才 能 为 模型 所 用 。 
比如 说 ， 对 变量 取 对 数 ， 将 连续 性 变量 离散 化 为 二 元 变量 都 是 基本 的 转化 形式 ， 它 们 往往 
会 在 一 定 程度 上 提高 模型 的 预测 能 力 。 





















































C—O 术语 解释 : 特征 、 解 释 变量 和 预测 变量 

A 和、 不同 的 学 术 领域 会 用 不 同 的 术语 表述 相同 的 对 象 。 统 计 和 ge 
避 ， 量 "”“ 因 变量 ”或 者 “预测 变量 ”等 表示 模型 的 输入 变量 。 而 计算 科学 家 外 

往 统 称 为 “特征 ”。 
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特征 提纯 和 选择 对 于 机 器 学 习 的 重要 性 经 常 被 人 和 忽视， 但 却 是 其 中 最 为 重要 的 一 
环 。 选 择 更 好 的 特征 变量 往往 可 以 得 到 效果 更 佳 的 模型 。 





Will Cukierski 





从 数据 到 结论 | 145 





我 们 使 用 的 算法 与 人 无 异 ， 我 们 只 是 数据 比 他 们 多 而 已 。 
Peter Novig， 人 谷歌 研究 总 监 





Will 觉得 Peter Novig 所 提 到 的 更 多 的 数据 ， 应 该 指 的 是 更 好 的 特征 。 因 为 更 多 的 数据 有 时 
候 并 不 会 带 来 额外 的 信息 。( 比 如 说 ， 你 关心 掷 骨 子 过 程 中 2€BEmEEE, 352.505: 1000 
次 山子 和 10 000 次 骨 子 所 得 到 的 结果 差别 并 不 大 ， 因 为 很 可 能 当 你 扳 第 500 次 的 时 候 ，2 
出 现 的 概率 已 经 稳定 在 了 1/6 EA, 并且 不 再 有 明显 的 改变 。 因 此 更 多 的 数据 在 这 里 并 不 
代表 更 多 的 信息 。) 谷歌 公司 所 要 解决 的 数据 问题 往往 都 纷繁 复杂 ， 因 此 搜集 更 多 的 数据 
往往 能 够 带 来 更 多 更 有 用 的 特征 变量 ， 这 也 许 是 Peter Novis 真正 想 表达 的 意思 。 


然而 ， 过 多 的 特征 也 并 不 见得 就 绝对 是 件 好 事 。 比 如 说 ， 当 数据 中 特征 变量 的 个 数 超过 观 
测 值 的 个 数 时 ， 会 产生 稀 玻 性 的 问题 。 这 会 导致 很 多 模型 的 参数 估计 失效 。 因 此 ， 过 多 的 
变量 也 并 非 是 好 事 。 有 时 候 ， 太 大 的 数据 还 会 带 来 额外 的 存储 问题 和 计算 问题 : 因为 数据 
太 大 ,一 个 计算 机 的 内 存 很 难 一 下 子 装 进 如 此 多 的 数据 。 因 此 数据 必须 被 分 割 ， 存 储 在 不 
同 的 计算 机 上 。 这 是 数据 科学 中 一 个 令 人 头疼 的 问题 ， 它 往往 会 带 来 不 小 的 负面 作用 。 


然而 ， 总 体 来 说 ， 要 想得到 好 的 预测 模型 ， 特 征 选择 是 不 可 逾越 的 一 步 。 


















































7.4.1 例子 : 留 住 用 户 

假设 要 你 设计 了 一 款 叫 作 “ 追 龙 ”(Chasing Dragons) 的 手机 游戏 (程序 图 标 如 图 7-2 所 
示 )， 用 户 以 交 月 费 的 形式 使 用 该 程序 。 那 么 很 明显 ， 用 户 数 量 越 多 ， 你 赚 的 钱 就 越 多 。 
然而 事实 上 ， 只 有 10% 的 新 用 户 会 在 下 一 个 月 度 选择 续 订 。 因 此 如 何 吸引 更 多 的 新 用 户 ， 
以 及 如 何 留 住 老 用 户 是 你 需要 考虑 的 两 个 最 重要 的 问题 。 通 常 来 看 ， 招 揽 新 用 户 的 成 本 要 
大 于 留 住 老 用 户 的 成 本 。 但 是 我 们 这 里 只 关心 其 中 一 个 问题 ， 就 是 如 何 更 有 效 地 留 住 用 
户 。 应 用 机 器 学 习 模 型 ， 我 们 可 以 根据 新 用 户 的 特征 预测 该 用 户 下 一 个 月 是 否 会 继续 续 订 
你 开发 的 这 款 游 戏 。 模 型 本 身 也 会 有 助 于 你 理解 产品 特征 、 用 户 行为 等 对 用 户 黏 性 的 影 
响 。 但 我 们 更 加 关心 是 模型 的 预测 效果 到 底 好 不 好 。 如 果 模 型 的 预 出 效果 很 好 ， 对 于 那些 
可 能 会 退 订 的 用 户 ， 你 可 以 采取 相应 的 激励 措施 (比如 一 个 月 的 免费 使 用 权 ) 想方设法 留 
住 该 用 户 。 
































图 7-2: 你 设计 的 手机 游戏 程序 :“ 追 龙 ” 
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什么 模型 比较 适合 呢 ? 第 4 章 中， 我 们 说 到 了 逻辑 回归 模型 主要 适用 于 预测 二 元 变量 ， 因 
此 可 以 先 试 试 逻 辑 回 归 模 型 。 模 型 的 输出 值 是 用 户 在 下 一 个 月 续 订 的 概率 值 。( 统 计 学 中 
的 生存 模型 在 这 里 可 能 更 加 适用 。) 在 用 户 下 载 程序 的 那 一 刻 起 ， 数 据 的 收集 工作 就 开始 
了 。 在 第 一 个 月 的 30 天 时 间 里 ， 要 尽 可 能 详细 地 记录 每 位 用 户 的 使 用 行为 习惯 等 ， 并 根 
据 用 户 的 行为 数据 预测 甚 在 下 一 个 月 续 订 的 概率 值 。 数 据 的 形式 可 以 是 时 间 发 的 形式 ， 比 
如 : 用 户 A 在 早晨 5: 22 分 打开 了 游戏 程序 ，5: 23 分 杀 死 了 一 只 龙 ， 在 5: 24 分 拿 到 了 
24 分 ，5: 25 分 游戏 自动 生成 了 一 条 有 关 香 体 露 的 广告 ， 等 等 。 严 格 来 说 ， 用 户 的 每 一 个 
动作 都 可 以 也 应 该 被 详细 地 记录 下 来 。 























活跃 用 户 和 非 活 跃 用 户 之 间 的 行为 差别 巨大 ， 前 者 会 产生 大 量 的 行为 数据 ， 而 后 者 可 能 只 
有 零星 的 记录 。 在 数据 分 析 前 ， 数 据 需要 被 转化 为 可 分 析 的 矩阵 形式 ， 行 代表 用 户 ， 列 代 
表 用 户 的 行为 特征 变量 。 在 数据 收集 和 整理 阶段 ， 原 则 上 应 该 完整 记录 下 用 户 的 每 个 行为 
特征 ， 不 做 任何 删 碱 ， 这 个 阶段 称 作 “ 特 征 生 成 "， 而 不 是 “特征 选择 ”。 但 是 ， 应 该 构建 
哪些 行为 特征 变量 可 是 需要 团队 紧密 协作 的 ， 团 队 成 员 应 该 坐 下 来 进行 激烈 的 头脑 风暴 。 
因为 这 对 之 后 的 模型 效果 有 着 直接 的 影响 。 下 面 是 一 些 可 能 的 变量 ， 可 作 人 参考 ; 


。 第 一 个 月 内 用 户 访问 游戏 程序 的 总 次 数 ， 

。 用 户 第 一 次 使 用 游戏 程序 的 持续 时 间 ， 

。 第 一 个 月 内 ， 用 户 每 天 的 游戏 得 分 (也 可 以 是 30 个 变量 ， 每 个 变量 代表 一 天 的 得 分 ) ; 
。 第 一 个 月 的 游戏 总 得 分 ，; 

。 用 户 是 否 填写 了 完整 的 个 人 信息 (二 元 变量 ，1 代表 已 填写 ，0 代表 未 填写 ) ; 

。 用 户 年 龄 ， 

。 HP TESI; 

。 用 户 手机 的 屏幕 尺寸 。 




















这 样 的 特征 变量 越 多 越 好 ， 即 便 有 些 变量 之 间 的 差异 可 能 很 小 ， 或 者 相关 性 很 强 ， 也 没有 
关系 。 





特征 生成 与 特征 提取 


刚才 所 说 的 “特征 生成 ”过 程 也 称 作 “特征 提取 ”。 这 个 过 程 既 是 一 门 科学 ， 又 是 一 门 
艺术 。 做 特征 提取 时 ， 有 领域 专家 从 旁 指 导 固 然 是 好 ， 若 没有 的 话 ， 充 分 发 挥 你 的 想 
象 力 也 会 收 到 不 错 的 效果 。 

只 要 想象 力 足够 丰富 ， 你 可 以 得 到 成 二 上 万 的 特征 变量 。 如 此 多 的 特征 变量 对 于 像 问 
卷 调查 这 样 的 学 科 是 难以 想象 和 企及 的 。 有 经 验 的 人 会 知道 ， 一 篇 问卷 的 问题 一 般 不 
过 几 十 个 ， 受 访 者 能 够 仔细 真实 回答 的 也 不 过 20 个 。 

如 果 特 征 变量 过 多 ， 难 免 会 有 一 些 是 不 太 有 用 的 。 有 些 你 能 够 想到 的 变量 ， 在 数据 里 也 
并 不 一 定 能 够 找到 。 因 此 ， 在 头脑 风暴 这 些 特征 变量 的 时 候 ， 可 能 会 遇 到 以 下 几 种 情形 。 
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有 些 变量 可 能 与 问题 十 分 相关 ， 对 建 模 也 十 分 有 用 ， 但 是 在 数据 中 并 不 一 定 存在 。 
用 户 的 很 多 信息 是 我 们 无 法 记录 的 ， 比 方 说 ， 用 户 的 闲暇 时 间 ; 用 户 在 玩 哪些 别 的 
游戏 ， 使 用 哪些 别 的 程序 ; 该 用 户 是 否 失 业 下 岗 ; 该 用 户 是 否 失眠 ; 用 户 是 否 容易 
FFRAE; 用 户 是 否 对 龙 比 较 反感 ， 以 至 于 会 做 恶 梦 。 这 样 变 量 固然 对 我 们 理解 
用 户 的 行为 ， 以 及 后 期 的 建 模 都 十 分 有 益 ， 但 问题 是 这 些 数据 大 多 是 很 难 直 接 获取 
的 。 当 然 ， 有些 变 量 我 们 可 以 通过 间接 的 方式 获得 。 比 方 说 ， 如 果 用 户 玩 该 款 游戏 
的 时 间 总 是 在 凌晨 或 者 深夜 ， 那 么 很 可 能 该 用 户 会 有 失眠 症 ; 不 过 ， 也 有 可 能 他 们 
正在 上 夜班 。 


量 与 问题 本 身 有 关 ， 并 且 已 经 通过 程序 本 身 追 踪 和 存储 。 
闪闪 全 和 性 疙 全 时 省 业 可 以 息 职 和 和 办 信 全 让 关 人 起 ， 必 六 坟 铺 闪 必 时 对 后 吉 交 
建 模 有 任何 用 处 。 这 就 是 为 什么 在 “特征 生成 ”和 “提取 ”的 过 程 中 要 尽量 多 的 生 
成 变量 。 变 量 的 选择 工作 需要 交 给 后 期 的 “特征 选择 ”工程 来 做 。 


量 与 问题 有 关 ， 程 序 可 以 追踪 和 存储 该 变量 ， 但 实际 上 却 没有 做 到 。 
Us EE 重要 的 变量 是 “用 户 是 否 上 传 了 头像 *。 然 而 ， 你 或 者 你 的 团队 
却 认为 这 个 变量 并 不 重要 ， 或 者 你 们 根本 没有 讨论 过 这 个 变量 。 这 都 有 可 能 ， 任 何 
人 或 者 团队 都 不 会 做 得 面面俱到 。 这 样 的 变量 对 建 模 有 很 大 的 帮助 ， 也 可 以 被 轻松 
地 记录 和 保存 下 来 ， 但 最 后 却 没有 。 然 而 ， 对 产品 事先 做 好 “可 用 性 研究 ”可 以 有 
效 地 避免 忽视 掉 重 要 的 解释 变量 (本 章 的 后 半 部 分 中 ，David Huffaker 会 介绍 有 关 
“可 用 性 研究 ”的 内 容 )。 因 为 在 “可 用 性 研究 中 ”， 我 们 会 更 多 地 从 用 户 角度 考虑 
产品 设计 的 方方面面 ， 可 以 帮助 确认 需要 追踪 用 户 的 哪些 产品 使 用 行为 。 
变量 可 能 毫 无 用 处 ， 但 还 是 被 记录 了 下 来 。 


这 太 常 见 不 过 了 ， 很 多 记录 下 来 的 特征 变量 都 被 证 明 是 毫 无 用 处 的 。 但 这 无 伤 大 
雅 ， 因 为 后 期 的 “特征 选择 ”会 过 滤 掉 这 些 变量 ， 而 保留 下 那些 真正 重要 的 变量 。 


变量 可 能 毫 无 用 处 ， 也 无 从 追踪 和 保存 。 
对 于 这 样 的 情况 就 不 需要 无 病 串 叭 了， 了 既然 没有 用 处 ， 则 根本 不 要 追踪 和 保存 ， 因 
为 你 根本 不 需要 它 。 











现在 该 回 到 刚才 逻辑 回归 模型 的 问题 了 。 用 c = 1 表示 用 户 在 下 一 个 月 的 某 个 时 间 选 择 


T& 








卖 订 “ 追 龙 ” 游 戏 。 到 底 是 下 一 个 月 ， 下 半 个 月 还 是 下 一 周 ， 你 的 团队 应 该 讨论 决定 ， 





但 在 建 模 初 始 ， 你 和 团队 不 需要 太 在 意 这 些 。 等 模型 的 效果 稳定 之 后 ， 可 以 再 商讨 这 些 
ai. 


通过 前 章 的 学 习 ， 我 们 知道 逻辑 回归 的 模型 形式 为 : 








losit(P(c = 1|x)) = a +E- xi 








但 你 真 的 会 把 刚才 生成 的 成 千 上 万 的 特征 变量 一 股 脑 全 扔 给 模型 吗 ? 即便 你 这 样 做 理论 上 
没有 问题 ， 模 型 还 是 会 照样 运行 ， 但 其 预测 效果 想必 不 会 太 好 ， 而 且 运 行 起 来 十 分 缓慢 。 
“特征 选择 ”就 是 用 来 从 变量 集中 精 选 出 最 为 重要 的 一 些 变量 ， 既 可 以 提高 模型 的 预测 效 
果 ， 也 可 以 提升 模型 的 运行 速度 。 









































关于 “特征 选择 "，Wil 强烈 推荐 大 家 读 一 读 Isabelle Guyon 于 2003 年 撰写 的 一 篇 论文 
“An Introduction to Variable and Feature Selection”(“ 变 量 与 特征 选择 导论 ”， 参 见 http:// 
goo.g]/3dz8Ar)。 该 文 从 提高 模型 预测 能 力 的 角度 详细 讨论 了 如 何 更 好 地 选择 特征 变量 。 变 
量 选择 与 变量 生成 以 及 变量 排序 有 着 本 质 的 不 同 ，Isabelle 在 文中 将 主流 的 变量 选择 方法 分 
为 了 三 类 ， 过滤 型 ， 打包 型 和 内 柑 型 。 下 文 将 分 别 介 绍 这 三 种 方法 。 


7.4.2 “过滤 型 
过 滤 型 是 指 根据 特征 变量 与 因 变 量 之 间 的 某 个 统计 量 的 值 将 特征 变量 从 大 到 小 排列 出 来 ， 
再 根据 排序 的 顺序 过 滤 掉 一 批 变量 。 比 如 ， 可 以 用 简单 相关 系数 作为 统计 量 。 该 方法 的 特 
点 是 每 个 变量 都 是 独立 过 滤 的 ， 不 考虑 变量 间 的 相互 作用 。 因 为 其 简单 有 效 ， 通 常会 用 在 
变量 选择 的 第 一 步 。 


过 滤 型 方法 的 好 处 是 其 容易 计算 ， 实 施 起 来 比较 简单 。 但 是 ， 由 于 其 并 未 考虑 变量 间 的 相 
关 信 息 ， 可 能 会 有 一 些 副 作用 。Isabelle 在 文中 解释 说 ， 被 过 滤 掉 的 两 个 “不 重要 ”变量 单 
独 来 看 可 能 确实 都 不 重要 ， 但 是 放 在 一 起 可 能 会 非常 重要 。 变 量 之 间 的 相互 作用 往往 会 将 
某 些 不 重要 的 变量 联系 并 组 合成 一 个 比较 重要 的 特征 。 


当然 ， 统 计量 的 类 型 并 不 限于 简单 相关 系数 。 对 于 线性 回归 来 说 ， 一 种 较为 常见 的 过 污 器 
可 以 基于 模型 参数 估计 的 p 值 或 者 模型 拟 合 的 R 方 。 其 操作 方法 是 ， 用 每 一 个 特征 变量 8 
e R er RM ed ae 
者 R 方 的 大 小 "对 变量 排序 (在 接 下 来 的 “什么 选择 标准 合适 ”中 还 有 详细 介绍 )。 
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7.4.8 包装 型 

包装 型 方法 是 从 所 有 的 变量 集中 (假设 变量 总 数 为 n) 找到 一 个 最 优 子 集 并 打包 给 模型 使 
用 。 通 常 子 集 的 大 小 是 一 个 固定 值 x。 学 过 排列 组 合 的 同学 应 该 知道 ， 从 n 个 变量 中 选取 
个 变量 的 可 能 方法 有 (名 ) 种 ， 因 此 大 的 选择 至 关 重 要 。 
在 应 用 包装 型 的 变量 选择 时 ， 有 两 方面 细节 需要 考虑 : 其 一 是 选用 什么 样 的 算法 选择 最 优 
子 集 ， 其 二 是 选用 什么 样 的 “选择 标准 ”衡量 一 个 变量 或 者 变量 子 集 的 优 乡 。 



































注 7: 越 小 说 明 该 变量 越 重要 。 
注 8: 越 大 说 明 模型 的 解释 能 力 越 强 ， 该 变量 越 重要 。 
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什么 算法 合适 
我 们 先 讨论 一 种 最 为 常见 的 变量 选择 算法 ， 叫 作 分 步 回归 。 对 于 回归 模型 ， 该 方法 的 特点 


EH 


是 ， 变 量 以 一 种 系统 性 的 方式 被 放 入 模型 (或 者 从 模型 中 移 除 ) 中 ， 同 时 用 类 似 R 方 这 样 





的 选择 标准 记录 某 个 变量 被 放 入 模型 (或 者 从 模型 中 移 除 ) 时 对 整个 模型 效果 的 影响 。 通 
常 的 分 步 方式 有 三 种 ， 向 前 搜索 法 、 向 后 消除 法 和 双向 搜索 法 。 


向 前 搜索 法 

向 前 搜索 是 指 先 建立 一 个 没有 任何 变量 的 回归 模型 ,每 一 步 都 从 变量 集合 中 选择 一 个 变 
量 加 入 到 模型 中 ， 选 择 的 标准 是 看 哪个 变量 可 以 最 大 程度 地 提高 模型 的 拟 合 或 者 预测 效 
果 。 变 量 被 加 入 到 模型 之 后 就 不 会 在 从 模型 中 移 除 ， 下 一 步 总 是 从 剩 下 的 变量 集合 中 找 
出 一 个 最 佳 变 量 加 入 到 模型 当中 。 每 次 只 添加 一 个 变量 ， 直 到 所 有 剩 下 的 变量 都 不 能 提 
升 模型 时 候 ， 模 型 的 向 前 搜索 即 停止。 


向 后 消除 法 
从 搜索 的 方向 上 来 说 ， 向 后 相 除法 与 向 前 搜索 法 正好 相反 。 刚 开始 需 建立 一 个 包含 所 有 
变量 的 回归 模型 〈 称 作 全 模型 )， 然 后 每 次 从 变量 集合 中 移 除 一 个 变量 ， 移 除 该 变量 的 
效果 基于 其 可 以 最 大 程度 上 提高 模型 的 拟 合 或 者 预测 效果 。 变 量 被 移 除 后 就 不 会 再 返回 
模型 中 去 ， 直 到 移 除 任何 一 个 变量 都 不 会 提高 模型 的 拟 合 或 者 预测 效果 时 ， 模 型 的 向 后 
消除 即 停 止 。 


双向 搜索 法 

由 于 向 前 和 向 后 消除 法 的 特点 是 每 次 只 加 入 或 者 移 除 一 个 变量 ， 而 一 旦 变量 被 加 入 就 不 
会 再 被 移 除 ， 或 者 一 旦 被 移 除 就 再 也 不 会 返回 模型 当中 。 这 样 的 算法 对 于 可 能 过 于 绝 
对 ， 双 向 搜索 法 就 可 以 用 来 解决 这 个 问题 。 









































什么 选择 标准 合适 
选择 变量 的 标准 有 很 多 ， 作 为 一 个 数据 科学 家 ， 你 还 需要 在 众多 选择 标准 中 做 出 选择 。 
虽然 每 一 个 选择 标准 都 有 相应 的 理论 可 供 参 考 ， 但 更 多 的 时 候 ， 选 择 起 来 还 是 相当 主观 














的 。 一 种 可 行 的 选择 方法 叫 作 “ 试 错 法 ”: 尝试 几 个 不 同 的 选择 标准 ， 看 模型 在 哪个 标准 
下 表现 的 更 加 稳健 。 不 同 的 选择 标准 会 选 出 截然 不 同 的 模型 变量 ， 因 此 你 应 该 对 主流 的 选 
择 标 准 有 所 了 解 。 
。 RJ 

及 方 的 定义 公式 为 : 














注 9: 意思 是 ， 只 有 一 个 截 距 项 的 线性 模型 。 





线性 模型 的 R 方 大 小 代表 了 数据 中 有 多 少 的 信息 可 以 被 该 模型 拟 合 。 

。 pli 
人 通常 用 bp 值 评估 一 个 参数 的 估计 值 是 否 显著 。 对 于 某 个 参数 
， 通 常设 定 一 个 原 假设 : 6 = 0, p 估计 值 的 p 值 就 代表 了 在 原 假设 成 立 的 条 件 下 ， 出 
现 观察 样本 (通常 以 估计 值 的 t+ 值 表示 ) 或 者 更 极端 样本 的 概率 。 因 此 ， 如 果 p 值 越 小 
则 代表 观察 样本 支持 原 假设 的 力度 越 小 。 也 就 是 说 , p 值 越 小 (比如 说 小 于 0.05) 我 们 
就 可 以 以 相当 大 的 概率 (95%) 认定 原 假设 并 不 成 立 ,， B 显著 不 为 0。 





。 AIC ( 杰 池 信息 量 准则 ) 
赤 池 信息 量 准 则 的 定义 公式 为 : 








AIC = 2k — 2In(L) 
其 中 大 是 模型 中 的 参数 个 数 ，In(L) 是 最 大 似 然 国 数值 。AIC 越 小 模型 的 效果 越 好 。 
* BIC ( 贝 叶 斯 信息 量 准则 ) 
贝 叶 斯 信息 量 准则 的 定义 公式 为 : 
BIC = k- In(n) — 21n() 


其 中 为 模型 中 的 参数 个 数 ，n 是 样本 数量 (在 “ 追 龙 ” 的 例子 中 ， 就 是 用 户 数量 )， 
In(L) 是 最 大 似 然 函 数值 。 与 AIC 一 样 ，BIC 越 小 代表 模型 的 效果 越 好 。 





NE 
EFM, REHE 7.4.4 节 中 详细 介绍 


实际 操作 

因为 分 步 回归 本 身 的 特点 ， 选 出 的 最 佳 变量 子 集 很 容易 过 拟 合 数据 : 模型 的 样本 内 拟 合 效 
果 很 好 ,但 是 样本 外 的 预测 效果 却 不 然 。 

在 应 用 变量 选择 标准 时 ， 并 不 需要 在 每 一 步 都 重新 训练 一 志 模 型 ， 这 会 相当 费事 。 由 于 每 


个 选择 标准 都 可 以 写成 函数 的 形式 ， 根 据 函数 的 泰勒 展开 式 ， 可 以 从 理论 上 表示 出 选择 标 
准 如 何 随 着 变量 个 数 的 改变 而 改变 。 


最 后 ， 我 们 还 是 想 提 一 下 ， 领 域 专家 应 该 在 变量 选择 过 程 中 起 一 定 的 作用 ， 在 用 算法 选择 
变量 之 前 ， 不 妨 咨询 一 下 他 们 的 看 法 。 



































7.4.4 ”决策 树 与 窒 入 型 变量 选择 

决策 树 方法 的 吸引 力 在 于 它 非常 直观 。 除 数据 科学 领域 以 外 ， 人 们 在 日 常生 活 中 做 决定 
时 ， 也 可 以 将 大 问题 分 解 成 一 系列 小 问题 ， 逐 个 解决 。 比 如 下 图 7-3， 一 位 大 学 生 在 决定 
自己 的 时 间 分 配 问 题 时 所 用 到 的 决策 树 。 
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图 7-3: 一 个 大 学 生 在 解决 自己 的 时 间 分 配 问题 时 用 到 的 决策 树 〈 原 图 摘自 Stephen Marsland 的 著 
作 Machine Learning: An Algorithmic Perspective (《 基 于 算法 的 机 器 学 习 》，Chapman and 
Hall/CRC)， 并 获得 了 作者 的 许可 ( 另 见 彩 插图 7-3) 


该 决策 树 的 整体 结构 取决 于 好 几 个 元 素 : 今天 有 没有 派对 、 今 天 有 没有 作业 要 交 、 今 天 的 
心情 如 何 ， 等 等 。 可 以 看 出 ， 决 策 树 的 结构 清晰 、 导 向 明确 、 非 常 容易 理解 ， 因 此 具有 十 
分 优良 的 可 解释 性 。 这 也 是 决策 树 如 此 受 欢迎 的 主要 原因 。 


在 数据 科学 中 ， 决 策 树 一 直 用 来 处 理 分 类 问题 。 以 之 前 “ 追 龙 ” 的 用 户 分 析 问 题 为 例 ， 我 
们 想 预测 用 户 下 一 个 月 是 否 会 续 订 。 这 是 典型 的 分 类 问题 ， 预 测 变 量 只 取 两 个 值 :“1” 代 
表 用 户 会 续 订 ,“0” 代 表 用 户 不 会 续 订 。 要 想 预测 用 户 下 一 个 月 续 订 行为 ,， 需要 考虑 很 多 
因素 (比如 用 户 杀 死 龙 的 数量 、 用 户 的 年 龄 性 别 、 用 户 在 游戏 上 花 去 的 时 间 等 )。 决 策 树 
告诉 我 们 可 以 把 这 些 因素 对 预测 变量 的 效用 用 如 图 7-3 所 示 的 结构 图 表示 出 来 ， 最 终 得 到 
类 似 图 7-4 的 决策 树 。 
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图 7-4:“ 追 龙 ”问题 的 决策 树 图 


那么 一 个 自然 的 问题 就 是 : 如 何 把 这 些 变量 合理 地 放 在 决策 树 上 呢 ? 哪些 先 放 、 哪 些 后 
放 、 什 么 时 候 停止 摆 放 ， 等 等 。 的 确 ， 建 立 决策 树 有 诸多 细节 需要 考虑 。 变 量 的 摆 放 和 拆 
分 要 基于 数据 中 的 信息 ， 而 不 是 拍 脑袋 里 猪 。 总 体 原则 是 ， 在 每 一 步 ， 都 先 放 上 “信息 量 
最 大 ”的 变量 ， 从 上 往 下 地 搭建 决策 树 。 因 此 ， 一 个 关键 性 的 问题 便 是 ， 如 何 认定 一 个 变 
量 的 “信息 量 ” 大 小 呢 ? 


为 了 说 明 这 个 问题 ， 我 们 用 筷 表 示 数 据 集中 的 特征 变量 ， 并 假设 其 只 能 拆 分 为 两 类 : 0 和 
1, p(X 2 1) AR pX = 0) 分 别 代 表 两 类 的 概率 值 。 














7.4.5 Jd 
TER EYE, Hex SA BEER S BEELT HUS EE. ELAT: 
H(X) =- p(X = 1)logy (p(X = 1)) - p(X = 0)logz(p(X = 0)) 


H(X)fexee ti x e. DEXE. C4 px = 1) 或 者 p(X = 0) 时 , XRH 0. 3x Ie] TAI 
限 性 质 一 致 : 


lim £:log(t) = 0 
1 一 0 





S 
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UE, HE x Hus aep te far — 28 n9 863828 0, Wu x REA 0. "b^. BF pX-D- 
1 一 p(X = 0), KHE x BARS T 0.5 对 称 ， 并 在 工 = 0.5 处 取得 最 大 值 1。 图 7-5 是 的 


























W5 pX = 1) WARE, HOO 的 对 称 性 和 极 值 点 一 目 了 然 。 
10 
对 05 
0 
0 05 10 
Prü — 1) 











& 7-5. 变量 X BG] 


ME EEEREN, spe UBRO XX DAS EE SERRE AIAE, "ESI 
AiRBgAETEZA? dE IUUD. ACE — 2e SEITBLI BU TS BEER IN, 3B E TR OE T ARIRSIAE ». 
公式 与 信息 量 大 小 到 底 有 何 关系 ? 


信息 量 大 小 与 变量 的 不 确定 性 有 着 直接 关系 , 一 个 变量 的 不 确定 性 越 高 , HERR IPS xx 
里 不 妨 举 个 简单 的 例子 。 假 设 X 表 示 一 个 出 生 婴 儿 的 性 别 ，X= 1 表示 男孩 , X203 
孩 。 从 概率 论 的 角度 来 说 ， 生 男生 女 的 概率 是 等 同 的 ， 因 此 p(X = 1)=p(X=0)=0.5。 这 对 
于 我 们 来 说 ， 基 本 上 没有 任何 信息 含量 ， 也 就 是 具有 高 度 的 不 确定 性 ， 因 此 其 具有 大 的 
WE. xx 5E 7-5 的 结论 不 谋 而 合 ， 当 p(X 1) 2 0.5 时 , X BARS SURE. 1。 





























相反 ， 如 果 用 半 表 示 沙 漠 中 某 天 下 雨 的 概率 ， 从 常识 上 来 讲 ， 既 然 是 沙漠 ， 那 么 下 雨 的 儿 
RAEI, HERETO. TREX, ATRE, Eewa 
低 。 从 图 7-5 KE, Rs Ber T 0. 

既然 炉 可 以 代表 一 个 变量 所 包含 的 信息 量 ， 我 们 便 可 以 以 它 为 目标 函数 ， 最 优化 模型 的 参 
数 。 比 方 说 ， 用 并 表示 用 户 是 否 续 订 我 们 的 产品 ， 那 么 我 们 必然 想 知 道 什 么 样 的 变量 对 蕊 
的 影响 最 大 。 这 里 我 们 需要 定义 信息 增益 (Information Gain, JH IG (X, a) 表示 ) 的 概念 ， 
对 于 变量 X， 在 给 定 一 个 变量 值 a 的 情况 下 , XE: 


IG(X,a) = H(x) — H(X | a) 

















iE 10: 在 信息 论 中 ， 这 称 作 系统 的 混乱 程度 。 
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HX | a) RR X RERNE a BA VES. 假设 a 是 属性 a 的 实际 属性 值 ， 那么 H X |a= a) 
RREZE EEE IR E T X HJ AE: 
H(X |a = a) 








— p(X = 1 |a = a) log:(p(X = 1 |a = ao) -p(X = 0 | a = ao) 
log: (p(X = 0 | a = ao) 
假设 属性 a 有 nn 个 属性 值 ， 那 么 Elo) 的 计算 公式 为 : 
H(X|a) =} pa=a) HX]a=a), i= 1,2,,n 
用 通俗 的 话 讲 ,xX 给 定 属性 a 的 条 件 炉 指 的 是 在 知道 属性 a 的 取 值 之 后 ， X Ti EB Ul AP t 
DAE T ABRETE,. iE, ERE a Zma, S DARE XC TAVR, XER 


不 确定 性 减少 了 。 从 属性 a PARERIK, WEE Ud 195 3E— 2p T REX Write BU AM 
BÉ. 

















A TERMS LEGE GRBUNCE LU. SR IE RTDUBURIROEEEEUORTA D: 在 摆 放 变量 时 ， 总 是 优 
Jc ENAKE, DD EEBERE IU TT T REX OEC BU BE 


7.4.6 决策 树 算 法 

决策 本 是 一 种 和 代 算 法 ， 先 从 第 一 个 要 点 开始 汉 认 量 进行 泊 分 ， 直 到 所 有 的 变量 都 已 
用 尽 ， 或 者 在 某 节点 上 只 能 对 等 拆 分 "时 ， 停 止 逻 代 。 在 每 一 个 节点 处 ,都 选择 可 以 最 大 
化 信息 增益 的 变量 用 于 拆 分 

















一 个 完整 迭代 的 决策 树 往往 会 过 拟 合 ， 为 了 解决 这 个 问题 ， 可 以 采用 “事后 前 校 法 ”。 也 
就 是 说 ， 为 了 防止 决策 树 过 于 复杂 ， 在 构建 好 完整 的 树 之 后 ， 在 树 的 某 个 广 点 处 将 树 前 
短 。 剪 短 的 决策 树 往 往 具 有 更 好 的 外 推 扩 展 能 


决策 树 中 隐藏 了 一 个 变量 选择 的 过 程 ， 我 们 称 为 “ 税 入 型 变量 选择 ”*"。 这 也 意味 着 ,决策 
树 模型 不 需要 使 用 传统 的 “过 滤 型 ”或 者 “包装 型 ”的 方法 选择 变量 。 因 为 ， 当 模型 使 用 
信息 增 量 选择 变量 进行 拆 分 时 ， 已 经 自动 地 选择 了 对 模型 本 身 而 言 最 为 重要 的 变量 。 因 
此 ， 变 量 的 选择 过 程 已 经 巧妙 地 著 入 了 决策 树 模型 的 搭建 过 程 。 

TE 


回 到 刚才 “ 追 龙 ” 的 例子 当中 ， 我 们 已 经 搜集 了 大 量 的 用 户 数据 ， 并 且 生 成 了 许多 特征 变 
量 。 我 们 关心 的 目标 变量 是 用 户 在 下 一 个 月 是 否 会 选择 续 订 该 游戏 。rpart 是 R 中 做 决策 
树 模 型 的 标准 软件 包 之 一 。 利 用 其 中 的 rpart 函数 ， 我 们 可 以 迅速 搭建 一 个 决策 树 模 型 ， 
并 夯 出 相应 的 决策 树 图 。 里 面 的 代码 可 供 参 考 ， 


# 利用 rpart 国 数 建立 分 类 树 模 型 
library(rpart) 

















N 


























注 11: 拆 分 后 的 两 类 包含 的 数据 量 相等 。 
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# 运行 分 类 树 模 型 

modeli <- rpart(Return ~ profile + num dragons + 
num friends invited + gender + age 十 

num days, method-z"class", data-chasingdragons) 


printcp(modeli) # 展示 模型 结果 
plotcp(modeli) # 交叉 验证 结果 可 视 化 
summary(modeli) # 转换 为 二 元 变量 时 间 值 选择 的 详细 结果 


# 分 类 树 可 视 化 图 
plot(modeli, uniform-TRUE, 

main-"Classification Tree for Chasing Dragons") 
text(modeli, use.n-TRUE, all-TRUE, cex-.8) 














7.4.7 ”如 何在 决策 树 模型 中 处 理 连续 性 变量 

?软件 包 在 搭建 决策 树 模型 的 时 候 已 经 为 我 们 考虑 到 了 连续 性 变量 的 情形 ， 并 自动 进行 
最 优 离散 化 的 操作 。 如 果 没 有 软件 的 帮助 ， 你 需要 弄 明白 如 何 最 优 地 离散 化 连续 性 变量 ， 
并 为 决策 树 所 用 。 





离散 化 关键 在 于 阔 值 的 选取 。 比 如 变量 式 指 的 是 用 户 在 游戏 中 杀 死 龙 的 个 数 ， 若 选取 10 
作为 国 值 ， 则 并 可 以 分 为 一 个 包含 两 类 的 二 元 变量 (1 代表 杀 死 龙 的 个 数 大 于 10，0 代表 
小 于 10)。 被 离散 化 之 后 的 变量 可 以 按照 刚才 讨论 的 方式 摆 放 到 决策 树 中 ， 这 不 是 问题 。 
国 值 的 选取 当然 不 能 随意 化 ， 这 会 对 模型 的 效果 有 着 直接 影响 。 





因为 有 众多 的 可 能 性 ， 比 方 说 ， 离 散 化 为 二 元 类 还 是 多 元 类 ， 以 多 大 的 间隔 挑选 国 值 等 。 
国 值 的 选取 是 一 个 相当 棘手 的 问题 。 对 它 的 选取 ， 本 身 可 以 视 作 决策 树 模型 的 一 个 子 模 
型 。 至 于 到 底 如 何 选取 ， 这 样 取决 于 数据 和 问题 本 身 的 特点 。 





泰坦 尼克 号 乘客 的 生存 模型 


关于 决策 树 模 型 ，Will 推荐 我 们 看 一 看 BigML 网 站 上 有 关 泰 坦 尼 克 号 乘客 生存 问题 
的 决策 树 模型 (LIS 7-6， 参 考 http://goo.gl/YsyWJW)。 原 始 数据 和 源 代码 都 来 自 于 
Encyclopedia Titanica (http://www.encyclopedia-titanica.org/) 。 图 7-6 只 是 该 决策 树 模型 
的 一 小 部 分 ，Encyclopedia Titanica 提供 了 更 为 详细 的 交互 化 决策 树 图 ， 感 兴趣 的 读者 
不 妨 去 他 们 的 网 站 看 一 看 。 


























注 12: 译注 : 决策 树 中 的 每 个 市 点 都 会 被 拆 分 ， 因 此 对 于 离散 型 变量 来 说 ， 拆 分 操作 可 以 进行 得 非常 自然 : 
只 需要 按照 变量 的 类 别 拆 分 就 可 以 。 如 果 需 要 在 决策 树 中 使 用 连续 性 变量 来 说 ， 其 关键 就 在 于 如 何 
将 变量 离散 化 ， 选 择 若干 闵 值 将 变量 拆 分 到 一 些 子 区 间 中 ， 并 以 区 间 为 类 。 
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图 7-6: 泰坦 尼克 号 乘客 生存 模型 的 决策 树 图 ( 另 见 彩 插图 7-6) 


7.4.8 ”随机 森林 

随机 森林 是 决策 树 模 型 的 拓展 ， 它 基于 bagging (EX) 模型 。bagging 的 全 称 是 bootstrap 
aggregating ( 解 靳 集成 法 )。 该 方法 可 以 显著 地 提高 模型 的 精度 和 稳健 性 ， 但 会 牺牲 决策 
树 模型 本 身 的 最 大 优点 : 可 解释 性 。 人 们 经 常 批评 随机 森林 的 黑匣子 特征 ， 认 为 从 模型 形 
式 上 来 说 ， 其 基本 不 可 以 解释 。 然 而 ， 从 模型 设置 来 看 ， 随 机 森林 模型 非常 简单 ， 它 只 有 
两 个 参数 : NN 代表 森林 中 决策 树 的 个 数 ; 下 代表 每 棵 树 上 使 用 的 〈 随 机 选取 的 ) 特征 变量 
个 数 。 

在 深入 了 解 随机 森林 模型 之 前 ， 我 们 有 必要 先 了 解 一 下 bootstrapping ( 解 靳 法 )。 解 靳 是 一 
种 可 放 回 的 抽样 方式 ， 一 个 解 靳 样本 (bootstrap sample) 就 是 从 原 数据 中 有 放 回 取 处 的 n 
个 数据 ， 因 为 抽样 是 可 放 回 的 ， 因 此 一 个 数据 可 能 会 被 抽取 多 次 ， 一 些 数据 很 可 能 一 次 也 
VAS. SOT n 的 大 小 ,一 般 取 所 有 数据 量 的 80%， 当 然 这 没有 严格 的 规定 。 对 于 随 
机 森林 来 说 ，n 可 以 理解 为 第 三 个 参数 。 


建立 随机 森林 模型 一般 遵循 以 下 两 个 步骤 。 


d) 从 原始 数据 中 抽取 个 不 同 的 解 床 样本， 每 个 样本 都 建立 一 个 决策 树 。 每 个 决策 树 只 
随机 使 用 FF 个 特征 变量 。 
D 每 个 决策 树 的 搭建 都 遵循 之 前 讨论 的 原则 ， 包 括 变量 的 选择 ， 连 续 性 变量 的 处 理 等 。 
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每 一 个 决策 树 都 可 以 进行 “事后 剪 枝 ”以 避免 过 拟 合 ， 但 对 于 随机 和 森林 模型 来 说 ， 这 完全 
没有 必要 。 随机 森林 的 一 大 特性 就 是 对 过 拟 合 的 免疫 性 ， 模型 本 身 就 吸收 了 数据 中 的 特质 
方差 ， 因 此 即使 不 做 单个 决策 树 的 “事后 剪 枝 ”， 随 机 森林 模型 也 不 会 过 拟 合 


下 面 提供 一 段 随机 森林 模型 的 R 代码 : 





# 作者 : Jared Lander 
# 


# 这 里 使 用 的 数据 是 来 自 ggplot2 中 的 diamonds 数据 集 
require(ggplot2) 





载 和 和 大 致 观察 一 下 diamonds 数据 
data(diamonds) 
head(diamonds) 


+ 画 出 直方 图 ， 在 直方 图 横 轴 $12 000 的 位 置 加 画 一 条 竖 直 线 
ggplot(diamonds) + geom histogram(aes(x=price)) + 
geom vline(xintercept-12000) 





# 构造 一 个 包含 TRUE/FALSE 的 二 元 变量 

# 用 来 表示 该 变量 的 取 值 是 否 超过 一 个 国 值 

diamondsSExpensive <- ifelse(diamondsSprice >= 12000, 1, 0) 
head(diamonds) 





# 删除 price 列 
diamonds$price <- NULL 


HE 此 处 需要 加 载 glmnet 包 
require(glmnet) 

# 创建 预测 变 SEE 

# 其 中 最 后 一 列 变量 被 别 除 ， 因 为 它 是 模型 的 因 变量 
X < 

# 











- model.matrix(~., diamonds[, -ncol(diamonds)]) 
构建 响应 向 量 
y <- as.matrix(diamondsSExpensive) 
# 运行 glmnet 
system.time(modGlmnet «- glmnet(x=x, y=y, family="binomial")) 
# 画 出 模型 的 参数 
plot(modGlmnet, label-TRUE) 








"3 











# 这 里 设 定 一 个 随机 数 种 子 值 

# 目的 是 为 了 结果 的 可 重复 性 

E 感 兴趣 的 读者 可 以 多 尝试 运行 几 次 该 程序 ， 得 到 的 结果 应 该 是 一 样 的 
set.seed(48872) 

sample(1:10) 








He 决策 树 模 型 

require(rpart) 

# 构建 一 个 简单 的 决策 树 

modTree <- rpart(Expensive ~ ., data-diamonds) 
# 决策 树 模 型 分 又 可 视 化 

plot(modTree) 

text(modTree) 





## bagging 模型 (全 称 是 bootstrap aggregating) 
require(boot) 

mean(diamonds$carat) 

sd(diamondsScarat) 

# 下 面 的 函数 对 均值 进行 bootstrapping 操作 


boot.mean <- function(x, i) 
mean(x[i]) 


} 

# 这 样 我 们 便 可 以 计算 均值 估计 的 方差 了 
boot(data-diamonds$carat, statistic-boot.mean, R=120) 
require(adabag) 

modBag«- bagging(formula-Species ~ ., iris, mfinal-10) 





## boosting 模型 

require(mboost) 

system.time(modglmBoost «- glmboost(as.factor(Expensive) ~ ., 
data-diamonds, family-Binomial(link-"logit"))) 

summary (modglmBoost) 

?blackboost 


## 随机 森林 模型 

require(randomForest) 

system.time(modForest «- randomForest(Species - ., data-iris, 
importance-TRUE, proximity-TRUE)) 





特征 选择 有 必要 吗 ? 


对 于 特征 选择 ， 有些 人 觉得 没有 必要 ， 他 们 常 说 : 与 其 费力 气 做 特征 选择 ， 还 不 如 花 
点 时 间 多 捞 点 数据 。 这 也 不 无 道理 ， 比 如 在 用 过 滤 型 的 方法 做 变量 选择 时 ， 如 果 以 简 
单 相 关系 数 为 标准 ， 很 可 能 会 选 出 一 些 与 目标 因 变 量 高 度 相关 的 变量 ， 但 他 们 本 身 可 
能 之 无 关系 。 在 预测 标准 普尔 指数 的 收 荔 认 时 ， 人 们 发 现 孟 加 拉 国 的 黄油 产量 与 其 有 
很 强 的 相关 性 ， 但 这 明显 是 伪 相 关 。 类 似 的 例子 还 有 很 多 ,这 些 都 是 由 于 相关 系数 本 
身 的 限制 所 造成 的 。 然 而 ， 如 果 有 更 多 的 数据 ， 类 似 这 样 的 伪 相 关 关 系 可 能 就 没 那么 
重要 了 。 


但 是 从 另外 一 个 角度 来 看 ， 变 量 选择 其 实 至 关 重 要 。 统 计 模 型 都 会 有 “偏差 -方差 折 
中 效应 "， 也 就 是 说 越 简 单 的 模型 可 能 方差 很 小 ， 但 是 其 模型 偏差 很 大 ， 而 越 复杂 的 模 
型 可 能 越 精确 ， 也 就 是 其 偏差 可 能 很 小 ， 但 是 模型 方差 很 大 ， 扩 展 能 力 很 弱 ， 容 易 引 
起 模型 过 拟 合 。 一 个 好 的 模型 其 实 就 是 在 偏差 与 方差 中 寻求 一 个 最 佳 平 衡 点 。 因 此 ， 
过 多 的 数据 ， 过 多 的 变量 并 不 会 带 给 我 们 更 好 的 模型 。 变 量 选择 对 于 建 模 来 说 ， 是 十 











7.4.9 APARE: 模型 的 预测 能 力 与 可 解释 | 
众所周知 ， 决 策 树 模型 有 着 优良 的 可 解释 性 。 也 就 是 说 ， 模 型 建立 之 后 (要 保证 其 预测 能 
力 尚 可 )， 可 以 通过 决策 树 图 的 形式 解析 模型 。 从 模型 中 ， 可 以 发 现 自 变量 与 因 变 量 之 间 























从 数据 到 结论 | 159 


的 逻辑 联系 。 


但 是 ， 从 决策 树 图 中 我 们 可 能 会 得 到 这 样 的 逻辑 联系 :， 用户 在 第 一 个 月 玩 该 游戏 的 时 间 越 
长 ， 基 在 下 一 个 月 续 订 的 可 能 性 越 大 。 如 果 费 尽心 思 建 立 的 模型 只 能 得 到 这 样 常识 化 的 解 
释 ， 分 析 人 员 肯 定 会 非常 失望 。 即 使 不 用 模型 ， 我 们 也 知道 一 个 人 玩 游戏 的 时 间 越 长 ， 代 
表 他 越 喜 欢 这 款 游戏 ， 甚 续 订 的 可 能 性 当然 更 大 。 但 是 如 果 模 型 能 够 告诉 你 ， 在 游戏 开始 
的 5 分 钟 插播 广告 会 减少 客户 续 订 的 概率 ， 但 是 如 果 在 用 户 玩 了 一 个 小 时 游戏 之 后 再 插播 
告 则 不 会 显著 地 影响 客户 续 订 的 概率 。 这 时 候 模型 才 会 显得 比较 有 魅力 。 因 为 你 从 其 中 
得 到 了 你 原本 不 知道 的 信息 ， 这 条 信息 明确 地 指示 你 ， 在 游戏 刚 开始 的 5 分 钟 切 莫 插 播 广 
告 。 这 样 的 模型 解释 性 才 是 真正 有 用 的 。 当 然 ， 为 了 证 实用 户 是 否 确实 不 喜欢 在 游戏 刚 开 
始 的 5 分 钟 内 看 到 插播 的 广告 ， 还 需要 进行 A/B 测试 〈 见 第 11 章 )。 但 是 最 起 码 ， 模 型 指 
出 了 可 能 改善 用 户 体验 的 方向 ， 这 才 是 我 们 建 模 的 目的 所 在 。 


模型 的 解释 可 能 充 请 陷 啡 。 这 里 我 们 有 必要 把 特征 变量 分 成 两 类 ， 一 类 是 由 用 户 的 行为 
产生 的 行为 变量 〈 比 如 用 户 一 个 月 玩 了 10 次 该 游戏 ) ， 另 一 类 是 游戏 开发 人 员 的 行为 变 
量 (比如 每 天 插播 广告 10 次 ， 或 者 龙 的 颜色 从 绿色 改 成 了 红色 等 )。 在 解释 模型 的 时 候 ， 
要 注意 这 两 种 类 型 变量 之 间 可 能 存在 的 相关 / 因果 关系 及 其 对 模型 解释 力 的 影响 。 比 如 
说 ， 模 型 的 结果 显示 用 户 在 游戏 中 得 分 的 高 低 与 其 续 订 游戏 的 可 能 性 大 小 有 很 强 的 相关 关 
系 。 那 么 为 了 招揽 客户 ， 吸 引 他 下 个 月 继续 续 订 ， 我 们 是 否 可 以 通过 给 用 户 增 加 游戏 得 分 
的 方式 获取 更 多 的 用 户 续 订 呢 ? 显然 不 能 ! 用 户 在 游戏 中 得 到 的 分 数 与 他 的 续 订 行为 只 

在 相关 关系 ， 而 并 非 因果 关系 。 其 中 有 一 个 潜在 的 干扰 变量 悄然 地 联系 着 用 户 的 得 分 高 低 
与 他 的 续 订 行为 。 这 个 干扰 变量 就 是 用 户 对 游戏 的 喜爱 程度 ， 或 者 上 瘾 程度 。 因 为 用 户 喜 
欢 这 个 游戏 ， 玩 上 疗 了 ， 他 才 会 取得 高 分 ， 他 才 会 愿意 在 下 个 月 开始 的 时 候 继 续 续 订 这 个 
游戏 。 因 此 ， 即 便 通 过 变量 选择 我 们 可 以 更 好 的 解释 模型 ， 但 是 真正 与 改善 用 户 体验 相关 
的 ， 是 在 考虑 到 用 户 的 行为 变量 的 影响 之 后 ， 如 何 改变 开 发 人 员 的 行为 (比如 ， 插 播 更 少 
的 广告 ， 而 不 是 提高 用 户 的 游戏 得 分 ) 。 


7.5 David Huffaker: 谷歌 社会 学 研究 的 新 方法 


David 的 工作 重点 是 有 效 地 把 定量 与 定性 研究 、 大 数据 与 小 数据 研究 结合 起 来 ， 充 分 发 挥 
各 自 的 优点 。 大 数据 研究 应 该 以 小 数据 为 起 点 ， 先 在 小 数据 上 建立 对 问题 的 基本 认 知 和 把 
握 ， 再 延伸 到 对 大 数据 的 整体 研究 上 。 反 之 亦 然 ， 在 大 数据 上 发 现 的 数据 特征 ， 也 应 该 及 
时 地 回溯 到 小 数据 上 进一步 验证 审查 ， 在 一 小 部 分 样本 人 群 中 做 “可 用 性 研究 ”"。 此 外 ， 
也 可 以 用 小 数据 里 发 现 的 新 东西 为 大 数据 特征 润色 。 在 小 数据 上 进行 的 探索 性 分 析 也 应 该 
联系 到 大 数据 上 ， 并 与 现 有 的 学 术 文 献 成 果 结合 ， 在 大 数据 中 找到 对 应 点 。 这 种 定量 与 定 
性 、 大 数据 与 小 数据 的 遥相呼应 ， 应 该 成 为 数据 科学 研究 的 典范 模式 。 


Rachelz 在 谷歌 时 曾 与 David 共事 ， 他 们 当时 的 合作 非常 成 功 。 由 于 他 们 知识 构成 相互 补 
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足 ， 当 他 们 在 Goolge+ MA (谷歌 的 社交 应 用 ) 与 一 些 优秀 的 软件 工程 师 和 计算 机 科学 
家 一 起 合作 时 ， 总 是 会 碰撞 出 创意 的 火花 ， 并 取得 了 很 大 的 成 功 。David 作为 一 个 社会 科 
学 家 ， 为 团队 带 来 了 社会 学 分 析 的 视角 。 对 于 在 线 社 交行 为 的 定量 分 析 与 理解 ， 他 也 同样 
非常 在 行 。 他 博士 毕业 于 美国 西北 大 学 ， 研 究 方向 有 关 媒 体 、 科 技 与 社会 。 在 我 们 的 课堂 
E, David 与 同学 们 分 享 了 谷歌 的 社交 研究 团队 的 工作 方式 ， 他 着 重 提 出 ， 一 个 优秀 数据 
科学 团队 应 该 把 定量 与 定性 研究 、 大 数据 与 小 数据 研究 相 结 合 才 能 取得 成 功 。 















































谷歌 的 工作 方式 非常 开放 ， 不 同 背 景 的 人 组 成 团队 ， 攻 克 同 一 个 项 目 ， 这 种 混搭 的 方式 会 
产生 巨大 的 生产 力 。 学 术 研 究 与 项 目 开发 的 界限 在 谷歌 已 经 被 极 大 程度 地 弱化 ， 很 多 项 目 
都 带 有 强烈 的 学 术 研 究 色 彩 。 谷 歌 团队 在 2012 年 6 月 就 他 们 的 研究 和 工作 方式 甚至 发 表 
了 一 篇 名 为 “Google’s Hybrid Approach to Research”(“ 混 搭 研究 在 谷歌 "， 参 见 http://goo. 
gl/ejtPw2) 的 论文 。 在 谷歌 的 产品 开发 队伍 中 ， 研 究 团队 是 重要 的 组 成 部 分 。 谷 歌 的 产品 
总 是 在 不 断 实 验 、 不 断 完善 的 。 工 程 师 们 从 产品 立项 的 第 一 天 起 就 尽量 保证 代码 的 质量 ， 
产品 在 小 范围 内 实验 后 ， 会 慢 慢 地 开放 给 大 众 用 户 。 因 为 谷歌 的 产品 总 是 拥 在 众多 ， 因 此 
他 们 不 可 能 总 是 从 头 再 来 ， 产 品 开发 的 每 一 步 都 要 脚踏实地 。 在 小 范围 客户 中 验证 产品 
行 性 之 后 ， 再 慢 慢 地 扩大 用 户 群 ， 并 在 此 过 程 中 不 断 获 取 用 户 反 馈 并 及 时 改善 产品 ， 这 就 
是 谷歌 的 产品 开发 哲学 。 



























































7.5.4 从 描述 性 统计 到 预测 模型 

David 指出 ， 作 为 数据 科学 家 ， 我 们 的 工作 决 不 能 只 停留 在 描述 性 统计 阶段 ， 应 该 勇于 跨 
入 深水 区 ， 设 计 实 验 ， 研 究 变量 之 间 次 层次 的 关系 。 这 需要 我 们 敢于 把 工作 重心 从 描述 性 
统计 转移 到 预测 模型 上 来 。 








他 举 了 一 个 在 谷歌 内 部 发 生 的 例子 。Google+ 的 一 个 重要 功能 叫 作 “圈子 "， 在 设计 之 初 ， 
谷歌 的 研究 人 员 已 经 知道 人 们 在 分 享 照片 或 者 新 闻 时 有 着 强烈 地 选择 性 。 比 如 ， 人 们 更 倾 
向 于 把 照片 分 享 给 亲人 ， 一 些 八 卦 只 会 与 自己 的 好 朋友 分 享 。 这 就 是 谷歌 设计 “圈子 ”的 
初 囊 。 然 而 ， 即 便 这 个 功能 听 起 来 似乎 能 够 满足 人 们 的 需求 ， 但 是 谁 也 不 能 肯定 用 户 一 定 
会 喜欢 上 这 个 功能 。 人 们 分 享 的 动机 和 方式 因 人 而 异 ， 用 户 的 心理 其 实 很 难 揣 摩 。 

















为 了 验证 产品 的 可 行 性 ， 谷 歌 采 用 了 一 个 混合 研究 方式 ， 使 用 了 形形色色 的 研究 方法 ， 包 
括 小 型 的 定性 研究 ， 还 有 大 规模 的 定量 研究 ， 最 后 确认 了 产品 的 可 行 性 和 应 该 具备 的 主打 
功能 。 





谷歌 其 实 主要 采取 了 问卷 调查 和 访谈 的 研究 模式 ， 但 细节 上 更 为 复杂 。 为 了 确定 什么 样 的 
“ 圈 ” 名 最 流行 ， 谷 歌 随机 挑选 了 10 万 名 用 户 ， 从 甚 中 挑选 出 168 位 最 为 活跃 的 用 户 ， 请 
他 们 填写 一 份 调查 问卷 ， 并 对 其 中 的 12 位 用 户 进行 了 细致 访谈 。 为 了 消除 取样 时 的 选择 
偏差 ， 他 们 对 访谈 的 深度 相应 地 也 做 了 调整 。 


他 们 发 现 ， 大 多 数 人 都 会 选择 性 地 分 享 ， 大 多 数 人 都 会 使 用 “圈子 ”的 功能 ， 而 “圈子 ” 
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的 命名 方式 大 多 跟 工作 或 者 学 校 的 名 字 有 关 ， 有 时 候 从 “圈子 ”的 名 字 就 可 以 看 出 这 帮 人 
是 群 死 觉 还 是 群 刚 认识 的 朋友 (其 中 一 个 圈子 的 名 字 叫 “一 辈子 老 奖 童 组 ”"， 很 明显 是 一 
帮 死 觉 老 朋友 ， 男 一 个 圈子 的 名 字 叫 作 “ 新 东方 同学 "， 很 明显 是 一 帮 刚 从 英语 课 上 认识 
的 学 生 )。 









































在 问卷 中 ， 他 们 询问 了 用 户 为 什么 会 分 享 内 容 。 回 答 基 本 可 以 分 为 三 类 : 其 一 是 因为 想 展 
现 自我 ， 包 括 自 己 的 经 历 、 观 点 等 ， 甚 二 是 用 户 具 有 参与 某 个 对 话 的 和 欲望， 其 三 是 一 些 天 
生 就 乐于 分 享 的 人 。 


他 们 还 询问 了 用 户 在 选择 分 享 对 和 象 时 ， 都 有 哪些 考虑 。 回 答 也 可 以 分 为 三 类 : 其 一 是 私密 
TE: 有些 信息 只 会 分 享 给 最 亲 的 好 友 ， 其 二 是 相关 性 : 一 般 信 息 只 会 分 享 给 与 信息 相关 的 
人 ,或 者 对 信息 感 兴趣 的 人 ， 最 后 是 覆盖 度 : 有 些 人 分 享 只 为 了 尽 可 能 大 的 覆盖 所 有 的 好 
友 ， 甚 至 公众 ， 以 扩大 自己 的 影响 。 


总 而 言 之 ， 用 户 的 分 享 行为 确实 具有 相当 的 选择 性 ， 主 要 的 影响 因素 是 分 享 的 内 容 和 分 享 
的 对 象 。 针 对 这 个 特点 ， 谷 歌 在 打造 “圈子 ”的 产品 主打 功能 时 ， 应 该 着 重 于 优化 用 户 控 
制 分 享 的 内 容 以 及 对 象 上 的 体验 。 只 要 做 好 了 这 些 用 户 最 关心 的 功能 ， 最 终 的 产品 才 会 取 
得 成 功 。 


















































思维 实验 : 大 规模 社交 网 络 分 析 


在 第 10 章 中 ， 我 们 会 和 John Kelly 一 起 详细 学 习 社 交 网 络 分 析 的 内 容 ， 现 在 让 我 们 稍 
微 热 身 一 下 。 我 们 刚刚 已 经 看 到 了 Google+ 团队 在 设计 产品 时 ， 针 对 用 户 的 选择 性 分 
享 行为 开展 了 车 有 成 效 的 用 户 可 行 性 研究 。 想 一 想 ， 如 何 把 该 研究 的 结论 应 用 到 大 数 
据 层 次 上 ? 现在 较为 流行 的 做 法 是 使 用 网 络 图 ， 对 于 Google+ 来 说 ， 每 一 个 用 户 代表 
一 个 节点 ,，“ 圈 子 ” 内 的 用 户 之 间 可 以 用 有 向 连接 线 相连 。 在 小 范围 的 调查 结束 之 后 ， 
你 需要 想 一 下 如 何 将 调查 的 结论 拓展 到 大 数据 上 : 需要 记录 哪些 数据 、 构 造 什么 假设 
并 设法 在 网 络 图 中 找到 答案 。 

作为 一 个 数据 科学 家 ， 应 该 拓展 思维 空间 ， 用 不 同 的 结构 和 形态 表示 数据 ,这 样 你 会 
发 现 ， 即 使 是 网 络 图 ， 也 可 以 画 出 各 种 不 同 的 模样 ， 代 表 数 据 中 不 同 的 特征 。 

下 面 是 网 络 的 几 种 不 同形 态 。 


。 每 一 个 节点 都 代表 网 络 世 界 中 (Second Life, A I http://secondlife.com/) 的 用 户 ， 
节点 之 间 的 连接 线 代表 用 户 之 间 的 互动 。 因 为 用 户 之 间 的 互动 可 以 有 许多 不 同 的 形 
式 ， 因 此 也 应 该 允许 节点 之 间 的 连接 线 有 不 同 的 类 型 。 

。 每 一 个 节点 代表 一 个 网 站 ， 连 接线 代表 网 站 之 间 的 超 链 接 。 

。 节点 代表 一 个 定理 ， 而 连接 线 代 表 定 理 之 间 的 关系 (参见 这 个 例子 : http://www. 
math.columbia.edu/-dejong/plaatje.png) 。 














7.5.2 ”谷歌 的 社交 研究 

谷歌 的 所 有 产品 都 带 有 强烈 地 “社交 ”元 素 ， 甚 至 连 谷 歌 的 搜索 引擎 也 是 如 此 : 比如 说 ， 
你 搜索 某 个 条 目 ， 谷 歌会 告诉 你 ， 你 的 某 个 朋友 也 对 这 个 条 目 点 了 赞 ， 这 称 作 社会 化 标 
注 。 通 常人 们 更 关心 专家 们 ， 而 不 是 亲戚 朋友 朋友 所 标注 的 信息 。 这 很 简单 ， 假 设 你 准备 
买 一 瓶 酒 ， 你 肯定 更 想 看 到 品 酒 专家 对 某 款 酒 的 标注 ， 而 不 是 你 的 某 位 亲友 。 
但 是 如 果 问 ， 在 品 酒 专家 和 亲友 之 间 你 更 加 信任 谁 ， 你 肯定 会 选择 杀 友 。 其 实 也 就 是 
说 , “点 赞 ” 的 朋友 并 不 一 定 是 亲密 的 朋友 ， 人 们 在 社交 网 络 上 所 表现 出 来 的 行为 和 情 
绪 有 着 强烈 的 复杂 性 。 到 底 用 什么 来 度量 社会 化 标注 的 重要 程度 ， 还 是 要 取决 于 标注 本 
身 的 特点 。 


通常 ， 数 据 科 学 家 喜欢 用 诸如 “点 击 率 ” 这 样 的 指标 衡量 其 重要 程度 。 












































7.5.3 ”隐私 保护 

社交 网 络 上 最 为 环 手 的 问题 就 是 用 户 的 隐私 保护 问题 。 谷 歌 曾 经 做 过 一 项 调查 ， 问 题 是 关 
于 人 们 对 社交 网 络 隐私 保护 的 看 法 : 比如 隐私 顾虑 是 否 会 削弱 他 们 参与 社交 网 络 的 热情 ; 
通常 的 隐私 顾虑 都 包括 哪些 内 容 ， 等 等 。 


调查 结果 显示 ， 用 户 对 隐私 的 顾虑 会 直接 影响 他 们 参与 社交 网 络 的 热情 。 这 一 点 都 不 奇 
怪 ， 因 为 社交 网 络 的 急速 传播 性 ， 用 户 会 顾虑 他 们 分 享 的 每 一 条 信息 ， 关 心 什么 时 候 分 享 
这 条 信息 比较 合适 ， 信 息 还 会 被 哪些 好 友 分 享 ， 等 等 。 在 社交 网 络 上 ， 我 们 对 信息 毫 无 控 
制 权 ， 当 你 面 对 这 么 多 烦恼 的 上 时候， 你 很 容易 产生 负面 情绪 ， 对 参与 社交 网 络 的 兴趣 大 
减 。 
































下 面 列 出 调查 中 用 户 列 出 的 一 些 顾虑 。 





。 身份 信息 窃取 


。 银行 卡 信息 被 窟 等 会 导致 融 在 的 金钱 损失 


。 数字 世界 
。 个 人 信息 
。 个 人 搜索 历史 
。 垃圾 邮件 
。 私人 大 尺度 照片 (被 老板 看 见 就 惨 了 ) 
。 不 情 之 请 
。 垃圾 广告 


。 真实 世界 
。 离线 骚扰 
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。 威胁 家 人 
。 被 人 跟踪 
。 失业 风险 


7.5.4 思维 实验 : 如 何 消除 用 户 的 顾虑 
用 户 的 以 上 顾虑 其 实 细 细 看 来 都 比较 合理 ，Rachel 课 上 的 同学 对 这 些 顾虑 展开 了 头脑 风 
暴 ， 并 给 出 了 以 下 一 些 解决 方案 。 





。 在 产品 说 明 页 详细 地 写 明 相关 的 隐私 政策 协议 。 谷 歌 确实 这 人 么 做 了 ， 但 好 像 基本 上 没有 
人 愿意 花 时 间 读 这 些 协议 。 

。 可 以 把 推荐 的 内 容 更 加 人 性 化 地 推送 给 用 户 ， 比 如 说 :“ 尊 敬 的 用 户 ， 基 于 你 对 某 某 条 
HATE, 我们 猜 您 可 能 也 对 这 条 信息 感 兴趣 。” 但 是 用 户 对 此 仍 会 心 存疑 虑 。 

。 可 以 告诉 用 户 ， 所 有 用 户 数据 的 有 效 期 为 一 年 。 在 一 年 之 后 所 有 数据 都 会 从 服务 器 上 永 
入 删除 。 


其 实 ， 只 要 把 数据 政策 透明 地 呈现 给 用 户 ， 用 户 的 很 多 疑虑 都 会 消除 。 但 关键 问题 是 ， 怎 
么 让 这 些 政策 更 加 透明 化 呢 ? 下 面 是 学 生 们 讨论 的 几 点 建议 。 
































。 将 数据 的 使 用 状态 用 动态 图 形 或 者 动画 的 形式 展示 给 客户 。 

。 用 户 需 对 自己 的 隐私 有 控制 权 。 

。 用 户 可 以 快速 设置 相关 的 隐私 选项 。 

。 设置 中 往往 会 存在 很 多 不 人 性 化 的 “霸王 条 款 "， 可 以 考虑 把 这 些 条 款 做 得 更 加 人 性 化 
最 为 理想 化 的 情形 是 ， 所 有 的 默认 设置 都 充分 考虑 到 了 用 户 的 隐私 顾虑 ， 因 此 用 户 不 需 
要 作 任 何 改动 。 

David 在 最 后 留 了 一 句 话 给 大 家 ， 作 为 本 章 的 结束 : 当 你 向 大 数据 迈进 的 路 上 ， 不 要 被 定 
量 分 析 蒙 蔽 了 双眼 。 简 单 的、 基于 逻辑 的 定性 分 析 对 于 更 加 深刻 地 理解 数据 同样 重要 。 像 
定性 调查 分 析 这 样 的 传统 工具 ， 有 时 候 反 而 能 取得 奇效 。 
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推荐 引擎 ， 又 名 推荐 系统 ， 是 数据 科学 的 典范 应 用 之 一 。 日 常生 活 中 ， 人 们 或 多 或 少 都 同 
推荐 系统 打 过 交道 ， 比 如 在 亚马逊 买书 时 ， 系 统 会 推荐 你 可 能 感 兴趣 的 图 书 ，Netflix 会 推 
荐 你 可 能 喜欢 的 电影 。 因 此 推荐 引擎 是 向 门外汉 介绍 数据 科学 及 其 应 用 的 一 个 很 好 的 切入 
点 。 然 而 ， 很 少 有 人 会 思考 隐藏 在 推荐 系统 背后 的 算法 细节 ， 更 不 会 有 人 意识 到 当 他 们 在 
网 上 买书 或 者 评价 电影 时 ， 相 应 的 数据 都 自动 生成 并 提供 给 了 推荐 系统 ， 这 些 数据 反 过 来 
又 会 提高 推荐 系统 的 准确 性 ， 为 人 们 推荐 更 多 更 好 的 内 容 。 

之 所 以 称 推荐 系统 为 “典范 ”的 数据 科学 应 用 ， 不 仅 是 因为 它 是 一 个 典型 的 数据 推动 的 应 


用 ， 还 在 于 构建 该 系统 时 需要 一 些 数据 科 学 的 两 项 必 备 技能 : 线性 代数 和 编程 。 同 时 ， 推 
荐 系统 还 展示 了 一 些 看 似 直 观 的 解决 方案 在 面 对 大 数据 时 可 能 会 面临 的 计算 量 上 的 挑战 。 



































本 章 ，Matt Catts 将 和 我 们 一 起 分 享 他 在 为 Hunch.com 构建 推荐 系统 时 所 积累 的 经 验 。 在 
构建 这 种 直接 面向 用 户 的 大 型 推荐 系统 时 ， 他 是 基于 何 种 考量 做 出 某 些 决定 的 ， 在 面 对 各 
种 算法 的 时 候 他 又 是 如 何 做 出 取舍 的 ， 我 们 都 将 一 一 揭晓 。 











Matt 毕业 于 麻 省 理工 学 院 ， 专 业 是 计算 机 科学 。 和 毕业 后 供职 于 SiteAdvisor 公司 ， 随 后 与 
人 合伙 创建 了 Hunch 公司 (http://hunch.com/)， 自 己 担任 CTO。Hunch 是 一 个 为 用 户 作 各 
种 推荐 的 网 站 。 首 先 ， 系 统 会 问 用 户 一 系列 问题 (从 Hunch 网 站 的 数据 来 看 ， 人 们 似乎 很 
乐意 回答 网 站 提出 的 问题 )， 根 据 用 户 对 这 些 问题 的 回答 ，Hunch 会 为 每 一 位 用 户 构建 一 
个 推荐 系统 。 如 果 用 户 反 过 来 问 系 统一 个 问题 ， 比 如 “我 该 买 一 个 什么 样 的 手机 ? ”“ 这 
次 我 该 到 哪儿 去 旅游 ”， 系 统 就 会 给 出 为 该 用 户 量 身 定制 的 、 合 理 的 建议 。 利 用 机 器 学 
习 技 术 ， 随 着 系统 的 不 断 学 习 ， 这 些 推荐 的 质量 会 变 得 越 来 越 好 。Matt 的 工作 ， 就 是 负责 
整个 推荐 引擎 背后 的 技术 开发 和 研究 (R&D)。 
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起 初 ， 他 们 会 把 问题 设计 得 尽量 有 趣 以 争取 更 高 的 回答 率 。 后 来 发 现 ， 这 些 问 题 的 设计 应 
该 以 尽 可 能 获取 最 多 的 用 户 信息 为 宗 骨 。 经 过 不 断 地 调整 ， 他 们 发 现 只 需要 问 用 户 不 超过 
20 个 问题 ， 推 荐 系统 的 预测 准确 率 就 能 达到 80%。 有 些 问 题 很 常见 ， 而 有 些 问 题 对 于 用 户 
来 说 可 能 会 比较 出 乎 意料 ， 比 如 会 问 你 的 性 格 是 和 争 强 好 胜 还 是 随遇而安 、 内 向 还 是 外 向 、 
理性 或 感性 ， 有 点 像 MBTI 的 人 格 测 试 。 

后 来 ，Hunch 决定 不 直接 向 用 户 提 问 ， 转 而 向 互联 网 抓 取 数 据 ， 并 以 API 形式 向 外 提供 服 
务 。 服 务 可 以 被 第 三 方 用 来 为 既定 网 站 提供 个 性 化 的 推荐 内 容 。 无 疑 ， 这 是 一 个 更 好 的 商 
业 模 式 ， 最 终 Hunch 成 功 出 售 给 了 eBay. 























Matt 从 小 就 开始 写 程序 ， 这 是 他 的 强项 ， 除 了 推荐 系统 ， 他 并 非 所 有 领域 的 专家 ， 而 
Hunch 作为 一 个 数据 公司 ， 需 要 跨 领 域 、 多 学 科 知 识 的 人 才 。 

因此 ，Matt 说 过 一 句 很 经 典 的 话 : ”一 个 人 不 可 能 完成 所 有 工作 ， 组 建 数据 团队 就 像 召 集 
十 一 罗汉 一 样 ， 个 个 都 得 身 怀 绝技 。 C 


r3 * 
8.31 一 个 真实 的 推荐 引擎 
推荐 系统 的 适用 范围 十 分 广泛 。 电 影 公司 会 根据 用 户 的 观 影 历 史 ， 推 荐 给 客户 他 们 可 能 会 
喜欢 的 电影 在线 购书 网 站 根据 客户 过 往 的 购书 记录 为 用 户 推荐 他 们 可 能 喜欢 的 新 书 ， 旅 
游 公司 会 根据 用 户 以 前 旅游 过 的 地 方 ， 为 他 们 建议 一 次 新 的 旅程 。 这 样 的 例子 数不胜数 。 
构建 这 样 的 系统 虽然 方法 很 多 ， 但 总 体感 觉 起 来 其 实 都 大 同 小 异 。 本 章 会 为 大 家 介绍 如 何 
实现 这 样 一 个 系统 ， 我 们 的 实现 虽然 简单 ， 但 是 麻雀 虽 小 ， 五 脏 俱 全 。 






































假设 有 一 个 用 户 的 集合 U， 待 推荐 的 项 目 定义 为 集合 V， 如 Kyle Teague 在 第 6 章 中 指出 
的 那样 ， 可 以 用 二 分 图 ( 见 图 8-1) 表示 两 个 集合 之 间 的 关系 ， 如 果 用 户 评价 过 某 件 东 西 ， 
就 用 一 条 线 将 二 者 连接 起 来 ， 这 种 评价 有 好 有 坏 ， 评 价 可 以 是 正面 的 ， 可 以 是 反面 的 ， 可 
以 是 连续 的 ， 可 以 是 分 散 的 ， 我 们 可 以 给 线 加 上 权重 以 表示 这 些 连接 在 某 种 意义 上 的 “ 强 
度 ” 值 。 评 价 系统 可 能 会 很 被 设计 非常 复杂 ， 但 这 里 我 们 不 讨论 过 于 复杂 的 系统 设计 。 

推荐 系统 所 需要 的 训练 数据 集 其 实 就 包含 在 上 面 的 二 分 图 中 : 主要 说 来 ， 就 是 用 户 的 特征 


变量 以 及 用 户 对 某 些 商品 的 偏好 数据 。 有 了 这 些 数 据 之 后 ， 基 于 推荐 系统 的 分 析 ， 就 可 以 
为 用 户 推 荐 新 的 商品 了 。 最 终 具体 的 推荐 项 目 就 是 推荐 系统 的 模型 输出 结果 。 









































你 可 能 会 获取 的 数据 包括 一 些 用 户 或 商品 的 元 数据 ， 比 如 用 户 性 别 ， 商 品 的 颜色 。 当 用 户 
登录 访问 你 的 网 站 时 ， 需 要 注册 账号 ， 你 就 可 以 得 到 用 户 的 性 别 、 年 龄 和 个 人 嗜好 等 数 
据 ， 还 可 以 让 他 们 选择 自己 喜欢 的 三 件 商品 。 











注 1:《 十 一 罗汉 》 是 一 部 有 名 的 美国 电影 。 
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图 8-1: 推荐 系统 的 二 分 图 : 左 侧 是 用 户 ， 右 侧 是 推荐 的 项 目 ， 比 如 电视 节目 〈 另 见 彩 插图 8-1) 
用 户 可 以 表示 为 一 组 特征 向 量 ， 该 向 量 有 时 包含 用 户 所 有 的 特征 变量 (包括 用 户 的 元 数据 


























以 及 用 户 的 其 他 特征 变量 )， 有 时 可 能 只 包含 用 户 的 元 数据 或 者 只 包含 用 户 的 喜好 数据 ， 





这 取决 于 你 想 用 这 组 特征 向量 和 干什么。 如 果 向 量 只 包含 用 户 的 喜好 数据 ， 








那么 得 到 的 向 量 





可 能 会 十 分 稀疏 ， 因 为 不 同 用 户 的 喜好 会 差别 很 大 。 在 得 到 每 位 用 户 的 特征 向 量 之 后 ， 可 
以 把 他 们 绑 在 一 起 ， 形 成 一 个 大 的 用 户 向 量 和 矩阵 ， 我 们 不 妨 称 为 U。( 之 前 的 用 户 集合 也 





叫 作 U， 这 里 我 们 有 点 六 用 数学 符号 的 嫌疑 。) 


8.1.1 最 近邻 算法 回顾 

















第 3 中 我 们 讨论 了 最 近邻 算法 ， 这 里 让 我 们 就 推荐 系统 问题 对 这 个 算法 和 





肖 作 回顾 ， 如 果 你 














想 预 测 用 户 4 是 否 喜 欢 某 商 品 ， 你 可 以 问 问 4 的“ 邻居”B 的 意见 。 如 果 B 喜欢 该 商品 ， 


那么 很 可 能 A 也 会 喜欢 该 商品 。 换 句 话说， 用 户 A 的 相似 用 户 是 用 户 B, 


用 户 4 没有 看 到 


过 或 者 买 过 某 种 商品 ， 而 用 户 B 买 过 ， 那 么 我 们 就 可 以 向 用 户 4 推荐 该 商品 ， 因 为 基于 最 








近邻 原理 ， 他 的 邻居 买 过 此 商品 ， 那 么 他 很 可 能 也 会 对 此 商品 感 兴趣 。 











第 3 章 我 们 说 过 ， 最 近邻 算法 严重 地 依赖 于 “距离 ”的 定义 。 对 于 用 户 的 喜好 变量 (是 一 
个 二 元 变量 ) 可 以 用 Jaccard 距离 来 测度 用 户 之 间 喜 好 的 相似 程度 〈 即 “1 - (二 人 都 喜欢 
的 商品 个 数 / 只 有 其 中 一 人 的 商品 个 数 )”)。 另 外 ， 余 弦 度 和 欧式 距离 也 是 合理 的 选择 。 





到 底 哪 种 距离 测度 最 好 ? 

p^ 。 这 个 问题 我 们 已 经 提 过 很 多 次 了 ， 答 案 是 : 没有 严格 、 统 一 的 

必 ， 题 需要 具体 对 待 ， 我 们 建议 在 实际 操作 中 尝试 不 同 的 测度 ， 再 
选 定 一 个 较为 合理 和 有 效 的 。 











标准 。 具 体 问 
通过 模型 评价 



































构建 面向 大 量 用 户 的 推荐 引擎 | 167 





8.1.2. 最 近邻 模型 的 已 知 问题 














最 近邻 模型 固然 是 一 个 不 错 的 模型 ， 它 足够 简单 ， 模 型 逻辑 也 很 容易 理解 :为 了 给 某 用 
户 推荐 某 商 品 ， 最 近邻 模型 会 先 找 该 用 户 的 “邻居 ”， 并 根据 这 些 “ 邻 居 ” 的 喜好 情况 为 
该 用 户 设计 推荐 内 容 。 但 是 有 很 多 已 知 的 问题 限制 着 该 模型 的 适用 范围 ， 我 们 这 里 列举 


一 些 。 





RRE 
当 数 据 的 维度 过 高 时 ， 即 便 是 最 近 的 “邻居 ”在 高 维 空间 中 也 会 离 得 很 远 。 





过 拟 合 问题 

WRH k= 1 的 最 近邻 算法 会 很 容易 产生 过 拟 合 的 问题 。 因 为 离 你 最 近 的 那个 “邻居 ”所 
能 提供 的 信息 十 分 有 限 ， 它 本 身 可 能 包含 大 量 “ 品 声 ” 信 息 。 日 常 操作 中 ， 我 们 很 少 使 
用 k=1, k=5 是 一 个 较为 常见 的 选择 。 但 是 过 大 的 同样 也 会 带 来 更 多 “噪声 ”信息 。 





多 重 相 关 问 题 

数据 中 的 特征 变量 很 多 ， 他 们 中 间 很 多 是 高 度 相关 的 。 多 重 相 关 问 题 会 带 来 信息 重 蕉 问 
题 ， 比 如 年 龄 大 的 人 往往 倾向 于 比较 保守 的 性 格 ， 如 果 把 用 户 的 年 龄 和 保守 程度 都 用 在 
模型 中 ， 就 会 造成 菜 项 信息 的 过 度 使 用 。 信 息 的 重合 和 过 度 使 用 都 会 带 来 欠 佳 的 模型 表 
现 。 如 果 能 把 数据 中 的 特征 变量 精简 ， 只 采用 一 些 重要 的 、 信 息 没有 重合 的 (不 多 重 相 
关 的 ) 的 变量 ， 对 于 提升 模型 效果 是 大 有 神 益 的 。 









































特征 变量 之 间 的 相对 重要 性 

某 些 变量 可 能 比 另 外 一 些 变量 更 加 重要 ， 这 是 很 容易 理解 的 。 比 如 你 的 年 龄 对 于 预测 你 
对 商品 1 可 能 没有 其 他 变量 重要 ， 但 是 在 预测 你 对 商品 2 的 时 候 可 能 又 至 关 重 要 。 根 据 
研究 对 象 的 不 同 ， 要 给 不 同 的 变量 赋予 不 同 的 权重 ， 这 对 于 提高 模型 效果 也 通常 是 有 帮 
助 的 。 至 于 如 何 确定 权重 ， 可 以 看 看 变量 之 间 的 协 方差 矩阵 。 




















LUE 

如 果 特 征 变量 的 向 量 (或 者 特征 变量 矩阵 ) 过 于 稀 芷 ， 或 者 有 过 多 的 缺失 值 ， 那 么 也 就 
意味 着 数据 中 的 绝 大 多 数 信息 是 未 知 的 。 如 果 用 Jaccard 距离 这 样 的 测度 就 很 难得 到 有 
用 的 信息 。 




















测量 误差 


数据 的 测量 总 有 误差 〈 也 称 作 报告 误差 ) : 因为 人 们 是 会 说 谎 的 。 














计算 的 复杂 度 
计算 是 有 成 本 的 一 一 成 本 取决 于 计算 问题 本 身 的 复杂 度 。” 








注 2: 近邻 模型 在 数据 量 较 大 时 的 计算 成 本 是 很 高 的 。 
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。 距离 测度 指标 的 敏感 性 
有 些 距离 指标 对 于 变量 的 取 值 范围 是 很 敏感 的 。 比 如 欧 氏 距离 就 有 这 个 问题 ， 年龄 变量 
之 间 的 欧 氏 距离 就 要 远 远 大 于 二 元 变量 之 间 的 欧 氏 距离 。 也 就 是 说 ， 由 于 欧 氏 距离 对 变 
量 取 值 的 敏感 性 ， 它 的 应 用 受到 了 较 大 的 限制 。 




















。 时 变 效应 
用 户 的 喜好 可 能 会 随 着 时 间 的 改变 而 改变 ， 这 样 模型 就 不 再 适用 了 。 比 如 在 eBay， 如 
果 一 个 用 户 刚 买 了 一 个 打印 机 ， 那 么 在 短 时 间 之 内 他 可 能 只 想 买 墨 使。 过 了 一 段 时 间 他 
又 会 想 买 别 的 商品 。 























。 模型 更 新 成 本 
随 着 新 数据 的 加 入 ， 我 们 需要 不 断 地 更 新 模型 。 而 模型 更 新 的 成 本 往往 比较 高 。 


上 面 所 列举 的 诸多 问题 中 ， 前 两 项 是 最 为 重要 的 : 维度 诅 区 和 过 拟 合 问题 。 我 们 应 该 如 何 
对 付 这 两 个 问题 呢 ? 我 们 接 下 来 以 线性 回归 模型 为 出 发 点 ， 探 讨 一 下 这 个 问题 。 


8.1.3 超越 近邻 模型 : 基于 机 器 学 习 的 分 类 模型 

我 们 接 下 来 把 机 器 学 习 模 型 简化 ， 针 对 每 一 个 商品 使 用 单独 的 线性 回归 模型 用 于 预测 。 在 
其 个 模型 中 ， 我 们 的 目的 是 给 定 某 位 用 户 的 属性 变量 ， 预 测 该 用 户 是 否 会 喜欢 该 商品 。 比 
如 ， 某 个 模型 被 单独 用 来 预测 你 是 否 喜欢 电影 Mad Men(《 广 告 狂人 》)， 另 外 一 个 模型 被 
单独 用 来 预测 你 是 否 喜欢 歌手 Bob Dylan (gzh HE). 


Hl f, 表 示 用 户 字 对 商品 7 的 喜好 情况 (或 者 /代表 用 户 i 的 元 数据 ， 比 如 年 龄 和 是 否 是 注 
MEARS, mi 则 是 用 户 的 其 他 属性 变量 )。 这 个 表示 方法 可 能 会 让 人 有 点 摸 不 着 头脑 ， 所 
以 你 要 花 时 间 稍 微 消化 一 下 ， 我 们 在 这 里 把 元 数据 也 当 作 了 某 种 意义 上 的 “商品 "。 我 们 
之 前 也 有 过 这 样 的 表述 ， 如 果 你 实在 觉得 很 难 理解 ， 也 没有 关系 ， 继 续 往 下 看 。 当 我 们 说 
推荐 系统 可 以 预测 你 的 喜好 时 ， 从 模型 层面 上 来 说 这 里 的 “喜好 ”是 广义 的 ， 可 能 是 你 的 
某 种 属性 变量 。 比 如 说 ， 也 许 你 在 注册 时 没有 填写 性 别 或 者 我 们 没有 问 你 的 性 别 是 什么 ， 
那么 “性 别 ” 可 以 作为 一 个 待 预测 变量 ， 也 就 是 这 里 的 “喜好 ”。 


为 了 让 这 种 表述 变 的 更 容易 理解 ， 我 们 假设 每 个 用 户 都 有 三 种 属性 变量 ， 也 就 是 说 对 于 任 
何 用 户 i 都 有 1, fs 和 f;3。 为 了 预测 该 用 户 i 对 于 某 个 新 商品 的 喜好 (暂时 用 p, 表示 该 喜 
好 )， 应 用 以 下 的 线性 回归 模型 ; 

pi = Bif,i + Bafoi + Bsfs.j - € 


好 消息 是 ， 对 于 这 样 一 个 多 元 线性 回归 模型 的 参数 估计 ， 我 们 已 经 学 习 过 了 。 参 数 的 估计 
可 以 使 用 线性 代数 的 方法 或 者 最 优化 的 方法 。 这 是 线性 回归 模型 的 统计 推断 ， 我 们 在 之 前 
已 经 遇 到 过 了 很 多 次 。 
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但 是 坏 消息 是 ， 这 样 的 模型 是 针对 单个 商品 的 ， 也 就 是 说 ， 有 多 少 商品 就 要 有 多 少 个 类 似 
的 线性 回归 模型 。 而 且 ， 由 于 模型 都 是 独立 的 ， 因 此 这 样 的 模型 没有 考虑 进 商 品 之 间 可 能 
存在 的 相关 关系 ， 这 对 于 数据 分 析 本 身 来 说 ， 就 意味 着 大 量 的 有 关 商 品 之 间 关 联 的 信息 被 
忽略 和 浪费 了 。 





等 等 ， 我 们 之 前 说 过 的 变量 的 权重 问题 在 线性 回归 模型 中 得 到 了 很 好 得 解决 ， 因 为 回归 模 
型 的 参数 就 是 天 然 的 权重 估计 值 。 

















但 是 更 严重 的 坏 消息 是 ， 这 样 的 模型 很 容易 产生 过 拟 合 的 问题 。 从 表现 形式 上 来 说 ， 如 
果 对 某 个 商品 的 喜好 的 数据 量 不 足 ， 那 么 在 该 商品 的 回归 模型 中 ， 参 数 的 估计 值 会 变 得 
很 大 。 


Ya 





我 们 刚才 说 到 如 果 模 型 中 的 某 些 参数 的 估计 值 过 大 ， 那 么 就 认为 中 模型 出 现 
人 4 、 了 过 拟 合 ， 这 里 做 一 下 解释 。 试 想 在 模型 中 我 们 使 用 了 两 个 一 模 一 样 的 变 
改 ， 量 ， 其 中 一 个 变量 的 参数 估计 值 可 能 为 100 000 而 另外 一 个 是 -100 000， 从 
参数 估计 的 绝对 值 来 看 ， 似 乎 两 个 变量 都 十 分 重要 ， 但 我 们 知道 其 实 其 中 一 
个 变量 是 完全 多 余 的 。 因 此 在 建 模 之 前 ， 我 们 最 好 做 一 些 关于 参数 估计 大 小 
上 下 限 的 先 验 假设 ， 一 切 超过 该 上 下 限 的 参数 估计 值 都 是 可 疑 的 ， 很 可 能 意 

味 着 模型 已 经 出 现 了 过 拟 合 。 









































为 了 解决 过 拟 合 问题 ， 可 通过 设 定 贝 叶 斯 先 验 信息 的 方式 强制 所 有 的 参数 估计 值 都 落 在 
一 定 范围 之 内 。 从 模型 形式 上 来 看 ， 我 们 可 以 惩罚 过 大 的 参数 估计 值 。 惩 罚 大 参数 等 同 
于 在 数据 的 协 方差 矩阵 上 加 了 一 个 先 验 信息 矩阵 (参见 http://mathbabe.org/2013/02/24/the- 
overburdened-prior/) 。 最 后 的 模型 解 只 取决 于 一 个 参数 ， 通 常用 4 表示 。 








接 下 来 一 个 自然 的 问题 就 是 ， 该 怎么 选择 这 个 惩罚 参数 4 呢 ? 第 3 章 的 模型 交叉 验证 的 方 
法 也 可 以 用 在 这 里 : 选取 一 部 分 数据 作为 训练 数据 ， 一 部 分 用 作 模 型 验证 与 评价 。 不 停 地 
变换 4 的 值 ， 直 到 模型 的 评价 标准 告诉 你 已 经 找到 了 一 个 较为 合理 的 值 。 现 实 中 我 们 经 常 
使 用 这 样 的 交叉 验证 方法 ， 但 是 却 很 难保 证 一 定 能 找到 那个 最 优 的 4 值 。 









































a 
i 
V 














y 有 些 变 量 因为 取 值 本 身 就 比较 大 ， 如 果 用 惩罚 的 方法 ， 对 它们 可 能 非常 不 公 

p^ 。 平 。 解 决 这 个 问题 最 简单 和 直接 的 办 法 就 是 在 建 模 之 前 把 所 有 的 变量 正则 

"V" (b. RIEZ 6 章 讲 过 正则 化 的 概念 。 这 样 所 有 的 变量 都 在 同一 个 水 平 线 上 
取 值 ， 惩 罚 就 变 得 相对 公平 了 。 正 则 化 的 操作 可 以 根据 变量 意义 的 不 同 而 有 
所 差异 ， 至 于 到 底 在 正则 化 中 使 用 什么 均值 和 方差 ， 建 模 者 可 以 自由 选择 。 
从 贝 叶 斯 统计 的 角度 来 说 ， 正 则 化 操作 等 同 于 在 模型 中 添加 了 某 种 形式 的 
“ 先 验 信息 ”。 

















mb 





最 后 一 个 关于 先 验 信息 的 问题 是 ， 虽然 将 先 验 信息 添加 到 模型 中 ， 只 要 7 够 大 ， 模 型 一 般 
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都 会 有 唯一 的 最 优 解 。 但 是 过 大 的 4 可 能 会 导致 模型 中 绝 大 多 数 其 至 全 部 的 参数 估计 都 接 
近 于 0， 这样 模 型 本 身 的 实际 意义 就 荡然 无 存 了 。 














8.1.4 高 维度 问题 

我 们 已 经 解决 了 过 拟 合 的 问题 ， 第 二 个 环 手 的 问题 就 是 数据 的 高 维度 问题 了 : 比如 刚才 
的 数据 中 可 能 包含 上 百 万 商品 的 信息 ， 这 样 的 维度 会 给 模型 带 来 很 多 问题 。 解 决 高 维度 
问题 的 两 大 杀手 铀 是 奇异 值 分 解 (Singular Value Decomposition) 和 主 成 分 分 析 (Principal 
Component Analysis) ， 接 下 来 我 们 会 详细 讲解 。 








在 讲解 其 中 的 理论 细节 之 前 ， 想 一 想 在 现实 生活 中 我 们 是 如 何 通过 “ 隐 含 变量 ”(latent 
feature) 的 形式 达到 降 维 目的 的 。 我 们 经 常 说 某 人 很 “ 酷 "”， 而 这 个 概念 是 很 难 量 化 和 直接 
观测 到 的 ， 我 们 称 为 “ 隐 仿 变量”。 而 “ 酷 ” 本 身 可 能 是 很 多 因素 构成 的 ， 比 如 这 个 人 的 
行为 方式 ,语音 语调 等 ,这些 因素 往往 是 可 以 直接 观测 到 的 。 因 此 一 个 “ 栈 ” 就 涵盖 了 许 
许多 多 可 观测 变量 的 信息 ， 这 从 形式 上 来 说 ， 就 达到 了 降 维 的 效果 。 


在 这 个 降 维 过 程 中 发 生 了 两 件 值得 注意 的 事情 : 其 一 是 很 多 变量 的 被 一 个 隐 含 变量 所 涵 


盖 ， 其 二 是 这 个 隐 含 变量 不 可 观测 。 



































从 数学 上 来 讲 ， 对 于 包含 很 多 可 观测 变量 的 数据 矩阵 来 说 ， 我 们 并 不 知道 其 中 的 隐 含 变量 
意味 着 什么 、 该 如 何 解释 等 ， 我 们 甚至 不 知道 其 中 有 几 个 “重要 ”的 隐 含 变量。 所 有 的 一 
切 都 是 由 算法 和 计算 机 自动 完成 的 。 重要 ”在 这 里 指 的 是 该 隐 含 变量 可 以 解释 数据 中 绝 
大 部 分 的 方差 。 如 果 可 以 用 很 少 的 “ 隐 仿 变量 ”就 能 解释 数据 中 绝 大 部 分 的 方差 ， 那 么 这 


些 隐 仿 变量 就 是 “重要 ”的 。 

















从 推荐 系统 的 角度 来 看 ， 降 维 的 目的 是 找到 用 户 的 “品味 ”(taste information)。 根 据 每 个 
用 户 品味 的 不 同 ， 系 统 可 以 做 出 个 性 化 的 推荐 。 因 此 ,“ 品 味 ” 在 这 里 是 一 个 隐 含 变量 ， 
并 且 提 取 自 关于 用 户 的 可 观测 的 变量 。 





不 过 ， 因 为 很 多 属性 变量 都 来 自 于 系统 在 用 户 注册 时 的 问卷 调查 数据 ， 也 就 意味 着 很 多 
变量 是 简单 的 二 元 变量 。 而 二 元 变量 所 包含 的 信息 往往 少 于 连续 性 变量 和 多 类 别 变量 。 
Hunch 的 研究 人 员 就 发 现 ， 问 卷 中 多 设计 一 些 比 对 问题 (comparison question) 能 够 带 来 更 
好 的 推荐 效果 。 

















是 时 候 好 好 学 习 一 下 线性 代数 了 ! 


如 果 不 太 买 线性 代数 的 账 ， 或 者 对 于 其 中 诸如 “ 秩 ”(rank)、“ 正 交 ”(orthogonal) 、 转 
Æ?” (transpose), “Æ” (base)、“ 张 空间 ”(span) 和 “矩阵 分 解 ” (matrix decomposition) 
这 些 概念 的 几何 解释 都 非常 陌生 ， 那 么 本 章 之 后 的 内 容 你 一 定 会 感觉 一 头 堆 水。 
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从 空间 和 矩阵 的 观点 看 数据 ， 我 们 能 够 更 深刻 地 洞悉 数据 。 理解 诸如 和 矩 阵 的 变换 和 子 
空间 等 概念 对 深入 理解 某 些 模型 的 数学 细节 ， 或 者 对 于 优化 某 些 模型 的 源 代 码 都 大 
有 帮助 。 矩 阵 角度 的 模型 洞察 力 黄 至 决定 了 一 个 数据 初创 公司 的 技术 实力 ， 这 也 是 
Hunch 能 被 eBay 收购 的 主要 原因 : 他 们 拥有 厚实 和 前 沿 的 技术 实力 。 如 果 你 觉得 自己 
的 线性 代数 学 的 不 够 好 ， 我 们 推荐 大 家 去 听 一 听 Khan Academy (TAFE) 上 的 线性 
代数 课 。 











8.1.5 ”奇异 值 分 解 (SVD) 
我 们 已 经 热身 很 久 了 ， 下 面 就 让 我 们 直接 进入 奇异 值 分 解 的 数学 细节 。 给 定 一 个 秩 为 大 
维度 为 mx n HEBRE x, WIRE, BE X nTEAZY EX — P ABIPERJTH : 

X = USV 











HP U, S fu V B2fe RE 4Y 9l 2g mx k, kxkkxn, UFI VABPEPIESZIZETH E. IEAS HJ, S 
是 一 个 对 角 和 矩阵 。SVD 在 线性 代数 中 的 标准 描述 是 把 志和 严 称 作为 方 西 矩 阵 (square 
unitary matrix), MIE S 称 作 方 阵 (rectangular matrix) 。 我 们 也 沿用 这 个 叫 法 。 之 后 我 们 将 
通过 减 秩 的 方法 尽 可 能 的 近似 矩阵 X， 同 时 达到 降 维 的 目的 。 关 于 SVD 分 解 存在 性 的 证 
明 可 以 在 奇异 值 分 解 的 维基 百科 页 面 上 找到 (http:/goo.gVGLS6sG ) 。 


现在 让 我 们 把 SVD 分解 与 之 前 推荐 系统 的 数据 分 析 问 题 联系 起 来 。X 对 应 之 前 的 原始 数据 
E, 里 面包 含 用 户 和 商品 的 信息 ， 其 中 有 m 位 用 户 和 nn 件 不 同 的 商品 ， 关 的 秩 为 kK 也 是 六 
中 可 能 包含 的 隐 含 变量 个 数 4 的 上 限 值 。4 是 SVD 需要 确定 的 调整 参数 (tuning parameter) 。 


SVD 分 解 中 的 矩阵 的 每 一 行 代表 用 户 ， 和 矩阵 人族 的 每 一 行 代表 商品 。S 矩阵 的 对 角 线 上 
的 元 素 叫 作 “ 奇 异 值 ”(singular value)， 他 们 的 大 小 衡量 的 是 相应 位 置 上 隐 含 变量 的 重要 
TE: 最 重要 的 隐 含 标量 对 应 最 大 的 奇异 值 。 


8.4.6 ”关于 SVD 的 重要 特性 

因为 矩阵 和 严 各 自 的 列 向 量 之 间 是 相互 正 交 的 ， 因 此 可 以 根据 奇异 值 从 大 到 小 的 顺序 将 
他 们 变换 位 置 。 因 为 奇异 值 的 大 小 代表 着 相应 位 置 上 隐 含 向 量 的 重要 性 ， 因 此 在 排序 之 后 
可 以 考虑 扔 掉 奇 异 值 很 小 的 那 部 分 矩阵 而 只 保留 奇异 值 较 大 的 那 部 分 ， 它 们 代表 了 原 数 据 
和 矩阵 的 大 部 分 信息 。 


也 就 是 说 ， 我 们 把 $ 矩阵 的 对 角 线 元 素 按照 从 大 到 小 的 顺序 重新 排列 了 之 后 扔 掉 了 其 右 下 
方 的 大 部 分 元 素 ， 同 理 U 和 VV 也 相应 地 做 了 重新 排序 和 舍弃 。 如 果 d 是 一 个 远 小 于 上 的 
数 ， 那 就 代表 我 们 舍弃 了 U、S 入 的 绝 大 部 分 元 素 ， 只 保留 了 对 应 大 奇异 值 的 那 一 小 部 
分 元 素 。 计 算 机 图 像 学 中 经 常 讲 到 的 “压缩 ”(compression) WEMA. MIERE X HI 
绝 大 部 分 信息 被 保留 了 下 来 ， 但 是 矩阵 的 规模 却 缩小 了 很 多 。 和 矩阵 5 的 对 角 线 元 素 具 有 明 
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MEX, HE UV 和 他 中 的 值 也 同样 有 很 好 的 解释 。 


这 样 的 矩阵 分 解 对 于 推荐 系统 来 说 到 底 有 何 用 处 呢 ?” 设 想 矩 阵 关 中 已 经 填 满 了 用 户 对 商品 
的 打分 数据 。( 通 常 来 说 ， 算 阵 中 最 好 不 要 出 现 打分 为 0 或 者 没有 打分 的 情况 ， 没 有 打分 
就 意味 着 缺失 值 ， 而 SVD 不 能 处 理 有 缺失 值 的 矩阵 ) 应 用 SVD 分 解 完 矩阵 之 后 ， 我 们 想 
要 的 并 不 是 三 个 独立 的 分 解 矩阵 ， 我 们 的 目的 其 实 是 为 了 预测 新 的 用 户 对 某 商 品 的 喜好 。 
而 这 个 预测 可 以 用 矩阵 羡 来 表示 ， 而 它 恰好 就 是 我 们 刚才 讨论 过 的 外 的 近似 矩阵 。 


在 8.1.2 节 中 我 们 讲 到 了 最 近邻 模型 的 很 多 已 知 的 缺陷 ， 比 如 缺失 值 问题 和 计算 量 大 的 | 
题 。SVD 也 有 这 两 个 方面 的 问题 。SVD 涉及 的 矩阵 分 解 对 计算 机 的 计算 能 力 要 求 颇 高 ， 
此 对 于 大 型 矩阵 SVD 会 显得 力不从心 。 我 们 应 该 想 一 想 如 何 改 进 SVD 的 计算 速度 问题 。 


8.1.7. 主 成 分 分 析 (PCA) 


保留 SVD 中 的 U 和 矩阵 和 他 算 阵 ， 如 果 我 们 可 以 抛弃 5S 秆 阵 而 只 通过 这 两 个 矩阵 近似 原 矩 
[E x, 则 有 : 
































Zi 





W 




















XzU. V 


如 果 这 个 近似 是 可 行 的 ， 那 么 我 们 总 是 希望 和 与 忆 : 太 之 间 的 误差 尽 可 能 小 。 这 是 一 个 最 
优化 问题 ， 我 们 希望 最 小 化 他 们 之 间 的 误差 平方 和 : 


; 2 
argmin y ^ (xij — ui: vj) 
ij 


IEA, u RIR U KERESE JAJ ET. vous 上 和 矩阵 中 商品 7 的 某 行 。 同 样 ， 严 矩阵 的 
行 上 可 以 包含 用 户 的 元 数据 变量 ， 比 如 年 龄 变量 。 


JB ZA EAR u, : vj 就 代表 用 户 i 对 商品 j 喜好 程度 的 伟 计 值 ， 我 们 当然 是 希望 其 与 真实 值 越 接 
近 越 好 。 


也 就 是 说 ， 你 想 找 到 一 组 最 优 的 UV 和 他 矩阵 ， 以 最 小 化 预测 值 与 实际 观测 值 之 间 的 平方 误 
差 。 实 际 观测 值 代表 你 已 经 观测 到 的 ， 对 其 有 充分 了 解 的 值 ， 那 么 这 里 的 逻辑 就 是 ， 如 果 
它们 对 于 已 经 观测 的 值 有 良好 的 表现 ， 那 么 对 于 没有 观测 到 的 值 ， 其 表现 也 会 十 分 不 错 。 
你 应 该 已 经 对 这 个 逻辑 相当 熟悉 了 一 一 这 就 是 均 方 误差 的 概念 ， 我 们 之 前 在 线性 回归 里 已 
经 仔细 地 阐述 过 了 。 























这 里 唯一 需要 确定 的 参数 就 是 4， 它 的 数值 代表 了 隐 含 变量 的 个 数 。 佐 阵 U 的 行 代表 用 
户 ， 列 代表 隐 含 变量， 而 矩阵 亚 的 行 代表 商品 ， 列 代表 隐 含 变量。 
到 底 如 何 选择 4 呢 ? 在 我 们 的 例子 中 ， 一 个 合适 的 d KEE 100 左右 。 我 们 之 前 说 过 在 用 


户 注册 填写 问卷 调查 的 时 候 ，20 个 问题 就 是 够 了 解 该 用 户 了 ， 因 此 100 似乎 看 起 来 有 点 过 
KT. d 的 大 小 可 以 人 为 设 定 ， 只 要 不 出 现 过 重 的 计算 负担 ， 我 们 建议 将 d 设 在 100 左右 。 
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得 到 的 隐 含 变 是 原 和 矩阵 在 n 维 空间 上 的 基 向 量 。 但 是 一 般 来 说 ， 如 果 原 矩阵 
UE HIMEN ERBEN EN 解 。 但 是 这 没有 关系 ， 因 为 我 
” 们 只 是 想得到 其 中 的 某 一 个 解 而 已 。 








aa, 
QN 
. 




















定理 : 隐 含 变量 是 互 不 相关 的 

在 上 近邻 那 一 EH m E M E 量 时 ， 没 有 建 模 
者 希望 在 模型 中 包含 进 任何 元 余 变 量 。 隐 含 变量 的 好 处 就 在 于 它们 是 互 不 相关 的 。 下 面 我 
们 简单 的 证 明 一 下 : 











假设 我 们 已 经 找到 了 和 矩阵 UV 和 人 VV 满足 U. 严 = 和 具有 最 小 化 的 平方 误差 。 这 样 的 矩阵 U 
和 严 可 能 有 很 多 ， 我 们 想 要 的 是 其 矩阵 元 素 和 最 小 的 矩阵 乙 和 了 玉 因 此 我 们 可 以 尝试 最 
小 化 矩阵 UV fü 严 内 元 素 的 平方 和 。 不 难看 出 ， 我 们 可 以 通过 右 乘 矩阵 过 一 个 可 逆 和 矩阵 G 
(dxd)， 相 应 的 左 乘 矩阵 VNE G 也 可 以 得 到 相同 的 矩阵 站 ， 因 为 : U- V — (U- 
G- (G 办 =X。 

















假设 矩阵 G 的 行列 式 值 为 1， 也 就 是 说 我 们 在 对 和 矩阵 UU 做 变换 的 时 候 强 制 了 其 是 体积 不 变 
的 (volumn-preserving transformation)。 如 果 我 们 暂时 忽视 矩阵 严 中 元 素 的 值 ， 而 只 关心 
最 小 化 矩阵 U 中 元 素 值 的 大 小 ， 那 么 就 相当 于 在 一 个 维 空间 内 最 小 化 一 个 4 面体 的 表面 
R (该 4 面体 的 体积 是 固定 的 )。 实 现 的 唯一 方法 就 是 让 该 d 面体 的 每 一 条 边 都 相互 正 交 ， 
也 就 是 说 U 和 矩阵 内 的 每 一 列 都 是 互 不 相关 的 。 


但 是 不 要 忘记 了 ， 我 们 刚才 似乎 忽略 了 和 矩阵 Y]! 但 是 基于 同样 的 道理 ， 如 果 我 们 把 注意 
力 集 中 在 矩阵 让 上 ， 而 选择 忽略 矩阵 UU， 那么 人 族 的 每 一 行 必须 是 互 不 相关 的 。 其 实 SVD 
从 理论 上 已 经 告诉 了 我 们 U 和 矩阵 列 之 间 以 及 矩阵 的 行 之 间 是 相互 正 交 的 ， 但 其 实 这 里 
HJU - V5 XH SVD 还 是 有 所 不 同 。 有 些 人 觉得 U- 天 就 代表 着 的 奇异 值 分 解 ， 其 实 
从 严格 意义 上 来 说 是 不 对 的 。 


















































现在 放松 矩阵 的 G 的 条 件 ， 允 许 它 的 行列 式 的 值 为 任意 值 一 一 比如 说 ， 我 们 允许 G 是 单 
位 矩阵 的 倍数 形式 。 那 么 只 需要 一 点 微 积 分 的 技巧 ， 就 可 以 发 现 最 佳 的 倍数 值 (最 佳 指 的 
是 可 以 最 小 化 矩阵 U fü V HJICzRSEZ; fü) 是 矩阵 U 和 玉 所 有 元 素 的 几何 平均 值 。 


这 就 是 我 们 的 证 明 过 程 ， 你 被 说 服 了 吗 ? 





8.1.8 交替 最 小 二 乘法 
那么 到 底 如 何 找 到 这 样 的 矩阵 UV FERE 亚 呢 。 从 上 面 的 叙述 来 看 ， 我 们 似乎 是 先 通过 最 
小 化 误差 平方 和 ， 有 再 通过 最 小 化 矩阵 忌 和 丘 的 元 素平 方 和 ， 才 能 找到 最 佳 的 矩阵 U fl V, 














bu 


f: 








注 3: 从 和 矩阵 理论 上 来 说 ， 隐 含 变量 解 的 形式 与 原 数 据 矩 阵 中 的 缺失 值 并 无 关系 ， 因 此 译 者 不 能 理解 原 书 
者 这 段 话 到 底 想 表达 什么 意思 。 





从 步骤 来 看 ， 是 两 个 一 先 一 后 的 步骤 。 但 其 实 ， 这 两 步 可 以 同时 完成 。 


基本 上 来 说 ， 这 是 一 个 最 优化 的 问题 ， 但 是 这 个 最 优化 问题 不 同 于 普通 最 小 二 乘 问题 ， 它 
是 没有 解析 解 的。 我 们 需要 类 似 于 “梯度 下 降 法 ”这 样 的 迭代 算法 去 解决 这 个 最 优化 问 
题 。 只 要 这 个 最 优化 的 对 象 函 数 是 是 函数 ， 那 么 就 基本 可 以 保证 算法 可 以 最 终 收敛 到 真 
值 。( 也 就 意味 着 ,算法 不 会 在 局 部 最 优点 上 永久 停留 ， 而 找 不 到 全 局 最 优点 。) 即便 函数 
本 身 不 是 一 个 凸 函数 ， 我 们 也 可 以 通过 增加 惩罚 项 的 方式 把 函数 强制 地 变 为 一 个 凸 函 数 。 


下 面 就 是 这 个 迭代 算法 的 详细 步骤 。 


。 随机 生成 一 个 矩阵 V. 

。 将 算 阵 人 固定 ， 最 优化 矩阵 V. 

。 FFER U 固定 ， 最 优化 矩阵 U. 

。 重复 上 述 步骤 知道 矩阵 U 和 和 佐 阵 族 中 元 素 的 变动 不 再 显著 为 止 。 具 体 来 说 ， 我 们 可 以 
定义 一 个 容忍 值 s， 只 要 变动 幅度 不 超过 该 容忍 值 ， 我 们 就 认为 该 选 代 算法 已 经 “ 收 
SU T. 


没有 证 明 过 程 的 定理 : MRAR E, SEZLBUIZE RAI EE XE 

先 验 信息 量 越 天 ， 最 优化 过 程 会 变 得 越 简单 。 但 是 从 另 一 方面 来 说 ， 如 果 先 验 信息 太 多 ， 
那么 所 有 的 参数 估计 都 会 接近 于 0， 这 对 于 实际 问题 来 说 设 有 任何 意义 。 因 此 ， 我 们 从 来 
不 希望 先 验 信息 变 得 过 于 主导 。 但 是 ， 我 们 不 可 以 选择 一 个 最 优化 的 先 验 信息 量 ， 因 为 如 
果 我 们 这 么 做 ， 先 验 信 息 就 不 能 称 为 先 验 信息 了 。 我 们 在 最 小 化 参数 的 过 程 中 还 要 想 着 如 
何 找 到 一 个 能 够 近似 矩阵 半 的 近似 矩阵 ， 这 两 个 过 程 其 实 是 南 辕 北 辐 的 。 你 对 参数 的 大 小 
关注 得 越 多 ， 对 和 矩阵 立 的 近似 就 要 关注 得 少 一 点 。 但 是 ， 我 们 还 是 认为 ， 更 多 的 精力 应 该 
放 在 如 何 更 好 地 近似 矩阵 X 上 ， 这 才 是 我 们 的 真正 目的 。 
































8.1.9 ”固定 矩阵 这， 更 新 矩阵 U 
在 固定 矩阵 全， 最 优化 矩阵 U 的 那 一 步 ， 最 优化 的 过 程 是 关于 用 户 的 。 对 于 每 一 个 用 户 i, 
最 优 的 对 象 是 : 








2 
argminy x (Bj — ui * vj) 


JEA 
其 中 vj 是 固定 的 。 换 句 话说 ， ix H H3 心 用 户 te 


这 看 起 来 与 最 小 二 乘法 的 数学 表达 没有 本 质 上 的 区 别 ! 的 确 是 。 根 据 最 小 二 乘法 的 结论 ， 
上 面 最 优化 过 程 的 最 优 解 为 : 




















Ui — (VL) ViiP,; 


其 中 玉 , 是 矩阵 族 的 子 集 ， 其 代表 用 户 i 对 商品 的 喜好 程度 。 上 式 中 的 求 逆 操作 并 不 难 ， 
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因为 矩阵 VV 是 一 个 qd 阶 方 阵 ， 是 一 个 较 小 的 矩阵 。 因 为 每 个 用 户 的 商品 喜好 向 量 并 不 
是 一 个 很 长 的 向 量 ， 因 此 这 一 步 的 计算 量 其 实 很 小 。 





刚才 讲 到 的 迭代 过 程 是 固定 让 更 新 UU 的 过 程 。 类 似 地 ， 如 果 固 定 算 阵 U EERE V, 
结论 相同 。 求 逆 操 作 只 涉及 一 个 d 阶 方 阵 。 




















另外 一 个 好 消息 是 ， 因 为 用 户 之 间 的 喜好 是 相互 独立 的 ， 所 以 上 述 迭 代 过 程 完全 可 平行 
化 。 如 果 计 算 机 的 CPU 是 多 核 的 ， 或 者 手头 有 儿 台 空 几 的 计算 机 ， 你 完全 可 以 用 平行 化 
的 方法 提高 算法 迭代 的 速度 。 这 对 于 大 数据 分 析 来 说 至 关 重 要 。 


8.1.10 ”关于 这 些 算法 的 一 点 思考 

每 一 种 方法 都 有 不 同 的 实现 版 本 ， 我 们 已 经 展示 了 如 何在 一 些 问 题 上 做 出 权衡 以 达到 更 
好 的 预测 效果 。 有 了 时候 ， 针 对 不 同 的 问题 也 要 做 相应 的 调整 ， 几 事 还 是 要 具体 问题 具体 
对 待 。 


比如 说 ， 随 着 新 用 户 和 新 数据 的 加 入 ， 我 们 可 能 要 不 断 地 更 新 矩阵 U 和 和 矩阵 ， 不 断 地 最 
优化 这 两 个 矩阵 。 但 是 对 于 某 些 用 户 ， 经 过 细心 地 观察 ， 你 可 能 会 决定 他 们 的 状态 已 经 相 
对 比较 稳定 ， 因 此 不 需要 再 更 新 关于 他 们 的 那 部 分 模型 以 节省 计算 资源 。 这 些 决 定 都 要 取 
决 于 你 自己 。 




















就 像 所 有 的 机 器 学 习 模 型 一 样 ， 交 又 验 证 的 方法 应 该 贯穿 于 建 模 的 始终 一 一 我 们 要 始终 抽 
离 出 一 部 分 数据 用 作 模 型 的 独立 验证 。 这 是 有 效 避 人 免 过 拟 合 问题 的 关键 方法 。 


— 3 M32 
8.2 思维 实验 : 如 何 过 滤 模 型 中 的 泡沫 
对 用 户 喜好 的 预测 是 通过 最 小 化 误差 的 形式 实现 的 ， 这 对 大 家 有 何 启 示 呢 ?推荐 系统 的 模 
型 ， 从 表现 形式 上 来 看 会 对 模型 的 更 新 产生 什么 样 的 影响 呢 ? 


具体 来 说 ， 商 品 展 现 给 用 户 的 先后 顺序 是 否 会 影响 商品 本 身 的 受 欢迎 程度 呢 ? 或 者 进一步 
说 ,商品 本 身 是 否 会 因为 这 样 的 人 为 操作 而 具有 本 身 不 该 具有 的 泡沫 优势 呢 ? 如 果 有 的 
话 ， 我 们 又 如 何在 模型 中 过 滤 掉 这 些 泡沫 效应 呢 ? 


大 家 不 妨 静 下 心 来 好 好 想 一 想 这 些 问题 。 


8.3 练习 : 搭建 自己 的 推荐 系统 

在 第 6 章 中 ， 我 们 有 幸 拿 到 了 GetGlue 公司 提供 的 数据 ， 练 习 了 有 关 探 索性 数据 分 析 的 
内 容 。 现 在 ， 我 们 不 妨 再 次 利用 这 个 数据 集 ， 搭 建 一 个 属于 你 自己 的 推荐 系统 。 下 面 的 
Python 代码 并 不 是 针对 该 数据 集 的 ， 而 是 Matt 为 大 家 提供 的 一 段 示 例 代 码 。 读 懂 这 段 代 
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码 ， 并 尝试 把 它 应 用 到 GetGlue 数据 集 上 。 





Python 示例 代码 


import math,numpy 
pu = 


(2,2,1), (2,3,1), (2,4,0), (2,5,1)],[(3,0,1), (3,1,40), (3,2,1), 
(3,3,0),(3,4,0),(3,5,1)],[(4,0,0), (4,1,40), (4,2,0), (4,4,1), 
(4,5,0)],[(5,0,0), (5,1,25), (5,2,1), (5,3,1), (5,4,1)1] 


pv = 
[(1,0,22),(1,1,32),(1,2,18),(1,3,40),(1,4,40),(1,5,25)], 

[(2,0,1),(2,1,0),(2,2,1),(2,3,1),(2,4,9),(2,5,1)],[(3,0,1), 
(3,1,90),(3,2,1),(3,3,90),(3,5,1)],[(4,1,1),(4,2,0),(4,3,0), 
(4,4,1),(4,5,1)],[(5,0,0),(5,1,0),(5,2,1),(5,3,1),(5,4,0)]] 


V - numpy.mat([[0.15968384, 0.9441198 , 0.83651085], 
[ 0.73573009, 0.24906915, 0.85338239], 
[ 0.25605814, 0.6990532 , 0.50900407], 
[ 0.2405843 , 0.31848888, 0.60233653], 
[ 0.24237479, 0.15293281, 0.22240255], 
[ 0.03943766, 0.19287528, 0.95094265]]) 


print v 


U = numpy.mat(numpy.zeros([6,3])) 
L = 0.03 


for iter in xrange(5): 


print "An----- ITER Xs ----- "X(iter*1) 
print "U" 
urs = [] 
for uset in pu: 

vo - [] 

pvo = [] 

for i,j,p in uset: 

vor = [] 


for k in xrange(3): 
vor.append(V[j,k]) 
vo.append(vor) 
pvo.append(p) 
vo - numpy.mat(vo) 
ur = numpy.linalg.inv(vo.T*vo + 
L*numpy.mat(numpy.eye(3))) * 
vo.T * numpy.mat(pvo).T 
urs.append(ur.T) 
U = numpy.vstack(urs) 
print U 


[[(6,0,1),(0,1,22),(0,2,1),(0,3,1),(0,5,0)],[(1,0,1), 
(1,1,32),(1,2,0),(1,3,0),(1,4,1),(1,5,0)],[(2,0,0), (2,1,18), 


[[(6,0,1),(0,1,1),(0,2,0),(0,3,1),(0,4,0),(0,5,0)], 
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print "V" 
vrs 7 [] 
for vset in pv: 
vo - [] 
puo - [] 
for j,i,p in vset: 
uor = [] 
for k in xrange(3): 
uor.append(U[i,k]) 
uo.append(uor) 
puo.append(p) 
uo - numpy.mat(uo) 
vr = numpy.linalg.inv(uo.T*uo + L*numpy.mat(num 
py.eye(3))) * uo.T * numpy.mat(puo).T 
vrs.append(vr.T) 
V = numpy.vstack(vrs) 
print V 


err = 0. 
n = 6. 
for uset in pu: 
for i,j,p in uset: 
err += (p - (U[i]*V[j].T)[0,0])**2 
n+= 1 
print math.sqrt(err/n) 


print 
print U*V.T 





第 9 章 


数据 可 视 化 与 欺诈 侦 测 





本 章 内 容 的 贡献 者 是 Mark Hansen 和 Ian Wong, Mark 是 哥伦比亚 大 学 的 教授 ，Ian 之 前 
(2012 4E. 11 月 我 们 课程 进行 的 时 候 ) 是 Square 公司 的 统计 学 家 ， 现 在 任职 于 Prismatic 公 
司 。 他 们 两 位 虽然 都 住 在 加 利 福 利 亚 ， 并 且 十 分 注重 数据 的 可 视 化 ， 但 在 本 章 他 们 主讲 的 
题目 将 截然 不 同 。 同 其 他 章 的 贡献 者 一 样 ， 他 们 两 位 都 是 次 刻 的 思想 家 ， 他 们 常常 思考 的 
问题 包括 : 什么 是 好 的 代码 、 编 程 语 言 作为 一 种 人 类 的 表达 方式 到 底 有 什么 样 的 特性 。 当 
然 ， 也 包括 本 书 最 重要 的 主题 : 到 底 什么 是 数据 科学 ? 


9.1 数据 可 视 化 的 历史 


Mark Hensen 来 自 加 利 福 利 亚 大 学 洛杉矶 分 校 (UCLA)， 在 休假 期 间 ， 他 兼职 于 《纽约 时 
报 》 研 发 实验 室 ， 并 且 是 哥伦比亚 大 学 布朗 媒介 创新 研究 院 的 院 长 。 他 博士 毕业 于 伯 克 
利 大 学 统计 学 院 ， 毕 业 之 后 在 贝尔 实验 室 工作 了 几 年 ， 随 后 去 了 UCLA， 任职 于 统计 学 
部 ， 并 且 同 时 任职 于 电子 工程 部 和 设计 /媒体 艺术 部 。Mark 在 数据 可 视 化 界 有 相当 高 的 知 
名 度 ， 同 时 他 也 是 一 个 富有 激情 的 演说 家 。 某 个 晚上 ， 他 本 来 应 该 是 在 星巴克 喝 大 杯 拿 铁 
的 ， 却 被 我 们 搜 到 课堂 中 给 大 家 上 了 一 课 。 

Mark 会 首先 带 我 们 回顾 一 下 数据 可 视 化 的 历史 ， 最 后 会 跟 我 们 分 享 一 些 他 的 数据 可 视 化 
项 目 。 他 可 视 化 项 目的 成 果 现 在 都 实 实在 在 地 摆 在 了 一 些 博物 馆 或 者 广场 上 供 人 欣赏 。 他 
的 工作 哲学 和 理念 将 次 地 影响 着 他 身边 的 人 。 他 也 在 教授 一 些 关 于 数据 可 视 化 的 课程 ， 他 



















































































的 先驱 ， 这 也 是 Rachel 把 他 请 到 课堂 中 来 的 原因 。 在 本 章 的 最 后 ， 我 们 还 会 讲 一 些 关 于 数 
据 可 视 化 技术 前 沿 的 内 容 。 
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9.1.1 Gabriel Tarde 

Mark 首先 提 到 了 社会 学 家 Gabriel Tarde, Tarde 觉得 社会 科学 产生 的 数据 量 要 远 远 大 于 别 
的 学 科 。 他 指出 ， 甚 他 学 科 对 数据 的 态度 往往 倾向 于 隔 靴 揪 岩 ， 各 种 模型 的 存在 也 无 非 是 
对 数据 某 种 形式 的 变换 和 汇总 : 比如 说 ， 生 物 学 家 并 不 直接 研究 细胞 ， 而 是 间接 地 研究 细 
胞 表现 出 来 的 某 些 功能 。Trade 觉得 这 一 定 程度 上 是 对 信息 匮乏 的 妥协 。 从 生物 学 家 的 角 
度 来 看 ， 我 们 真正 应 该 研究 的 应 该 是 每 一 个 细胞 本 身 产生 的 所 有 数据 。 


在 社会 学 中 也 一 样 ， 每 个 人 就 是 社会 学 中 的 细胞 。 在 Facebook 上 ， 每 个 人 每 天 都 在 生产 大 
量 的 数据 ， 这 是 研究 人 和 社会 的 绝 佳 媒 介 。 


但 是 这 里 自然 会 有 一 个 问题 : 当 我 们 太 注 重 细节 和 个 体 的 时 候 ， 很 可 能 会 失去 对 事物 整体 
的 把 握 。 在 社会 学 研究 中 ， 如 果 太 注重 个 体 研 究 ， 我 们 很 容易 忽略 人 们 之 间 的 文化 属性 和 
社交 属性 ， 而 这 些 属 性 往往 意义 更 加 深刻 。 法 国 现代 社会 学 家 Bruno Latour 在 他 一 篇 评论 
Tarde 的 文章 “Tarde's Idea of Quantification” (Tarde 的 量化 心得 ) 中 这 么 说 过 : 














整体 ， 作 为 一 个 概念 ， 可 以 看 作 其 局 部 成 分 的 菜 种 方式 的 重 构 或 者 转化 。 同 样 的 
局 部 构件 ， 在 不 同 的 重 构 和 转化 工具 下 会 表现 出 不 同形 式 的 整体 。 











Bruno Latour 


Tarde 于 1903 年 在 某 个 类 似 日 报 的 媒体 上 发 表 的 一 段 话 ， 可 以 说 是 对 Facebook 的 一 段 精 
准 的 预言 。 他 说 : 


如 果 统 计 学 能 够 按照 近 几 年 的 发 展 速度 发 展 下 去 ， 如 果 信 息 的 到 来 能 够 更 加 准 
确 、 迅 捷 、 海 量 和 有 规律 ， 那 么 一 个 信息 化 的 时 代 终 将 到 来 。 在 这 个 时 代 里 ， 社 
会 上 每 一 个 小 事件 完成 后 都 会 自动 生成 数据 并 上 传 到 统计 储存 器 中 。 这 些 数据 将 
会 实时 、 连 续 地 通过 媒体 向 公众 传递 ， 甚 至 会 通过 更 为 形象 化 的 方式 向 海外 传 
播 。 到 了 那个 时 候 ， 我 们 每 瞄 一 眼 报 纸 或 者 海报 ， 都 会 被 巨 量 信息 所 和 包围。 无论 
是 社会 发 展 的 细微 动态 、 商 业 竞 争 的 即时 信息 、 政 党 支持 率 的 偏 移 ， 甚 至 是 某 种 
学 说 的 兴衰 ， 都 将 以 统计 数据 来 说 明 问 题 ， 人 们 对 社会 的 认识 会 变 得 更 加 精简 浓 
缩 。 未 来 的 我 们 ， 对 信息 的 获取 和 处 理 或 将 成 为 我 们 本 能 的 一 部 分 ， 就 像 我 们 现 
在 睁 开眼 睛 就 可 以 看 到 人 与 自然 一 样 。 在 未 来 ， 信 息 或 将 成 为 自然 的 一 部 分 。 
一 一 Tarde 


Mark 于 是 在 他 的 课堂 中 用 Brune 的 一 句 话 如 是 总 结 道 : 


改变 了 研究 工具 ,就 等 于 改变 了 整个 社会 学 研究 的 整体 面貌 。 





Bruno Latour 


Mark 说 (Tarde 应 该 也 这 么 认为 )， 这 就 类 似 薛 定 雇 的 猫 ， 我 们 应 该 重新 审视 我 们 观察 和 
了 解 这 个 社会 的 方式 ， 以 及 我 们 认识 局 部 与 整体 关系 的 角度 ， 因 为 当 我 们 观察 这 个 世界 的 
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时 候 ， 它 其 实 是 在 不 停 变化 的 ， 我 们 需要 有 动态 的 、 全 局 的 视角 。 


换 名 话说， 老式 的 数据 收集 方式 迫使 我 们 使 用 样本 和 汇总 统计 量 〈 比 如 均值 ) 去 间接 地 了 
解 我 们 所 观察 的 对 象 。 但 是 现在 呢 ? 我 们 得 到 的 数据 越 来 越 多 ， 有 时 候 甚至 可 以 掌握 总 体 
的 全 部 数据 ， 我 们 自然 应 该 改变 我 们 的 研究 工具 ， 而 不 应 该 墨守成规 ， 总 是 想 着 用 抽样 和 
汇总 的 方法 ， 我 们 的 研究 触角 既 可 以 深入 到 个 体 ， 也 可 以 扩大 到 整体 。 比 如 我 们 将 要 在 下 
一 章 中 讲 到 的 基于 图 论 的 社交 网 络 研究 ， 它 会 带 给 我 们 更 多 的 关于 研究 个 体 本 身 以 及 研究 
个 体 之 间 关系 的 信息 。 这 些 都 源 于 信息 独 的 到 来 ， 以 及 我 们 处 理 信息 能 力 的 增强 。 既 然 旧 
有 的 限制 条 件 已 经 慢 慢 消失 了 ， 我 们 自然 应 该 改变 我 们 思考 和 研究 问题 的 方式 。 















































9.1.2 ”Mark 的 思维 实验 

随 着 数据 的 个 人 化 特征 愈 发 明显 ， 更 多 关于 人 类 活动 本 身 的 数据 需要 我 们 去 分 析 。 由 此 产 
生 的 问题 就 是 ， 我 们 应 该 使 用 什么 样 的 工具 研究 人 与 人 、 人 与 社会 、 社 会 与 国家 、 国 家 与 
世界 之 间 纷 繁复 杂 的 关系 呢 ? 

民意 调查 和 总 统 支持 率 这 样 的 数据 分 析 调 查 框架 
示 民 意 中 个 性 化 和 互动 的 部 分 ? 





然 可 以 掌握 公众 意见 的 动向 ， 但 能 否 展 


W 








即便 可 以 ， 我 们 又 是 否 愿意 生活 在 这 样 一 种 环境 中 一 一 我 们 的 个 性 和 互动 信息 能 够 被 精准 
记录 下 来 并 随时 供 人 取 用 ? 


9.2 ”到 底 什 么 是 数据 科学 


Rachel 在 第 1 章 中 提出 并 尝试 回答 了 “到 底 什 么 是 数据 科学 ”这 一 问题 。Mark 在 这 里 想 
从 一 个 全 新 的 角度 再 一 次 审视 这 个 命题 。 他 首先 提 到 了 John Tukey 的 一 句 名 言 : 
































作为 一 个 统计 学 家 的 最 大 特权 就 是 ， 你 可 以 在 每 一 个 人 家 的 后 院 玩 要 。 





John Tukey 


如 果 把 统计 学 家 ， 抑 或 数据 科学 家 ， 比 作 可 以 在 任何 人 的 后 院 玩 要 的 全 能 型 人 才 ， 这 样 合 
理 吗 ? 换 名 话说， 这 样 的 “全 能 ” 真 的 是 成 为 数据 科学 家 的 必要 条 件 吗 ? 到 底 什么 样 才 
算 作 “全 能 ” 呢 ? 


我 们 不 妨 把 学 科 分 为 “数据 类 传统 学 科 ” 和 “其 他 学 科 ” 两 类 ， 其 中 前 者 主要 包括 数学 、 
统计 学 、 计 算 机 科学 等 。 全 能 型 ”从 概念 上 来 说 不 过 是 代表 对 于 所 有 的 数据 类 传统 学 科 
的 知识 都 详 熟 于 胸 ， 因 为 我 们 不 同 于 常人 并 深 这 地 阁 迷 于 数据 科学 的 各 个 传统 领域 。 如 此 
看 来 ， 我 们 或 许 是 过 于 自 大 了 ， 从 而 导致 我 们 看 待 这 个 问题 的 角度 也 变 得 非常 狭隘 。 


因此 即使 是 对 于 最 简单 的 问题 ， 即 到 底 哪 些 学 科 是 “传统 ”的 数据 类 学 科 ， 哪 些 属于 “其 
他 ”类 ， 我 们 都 还 回答 不 上 来 。 








m» 
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在 Mark 看 来 ,“ 其 他 ”类 应 该 包括 大 部 分 社会 科学 学 科 和 理科 类 的 学 科 ， 比 如 教育 学 、 设 
计 学 、 新 闻 学 和 媒体 艺术 学 等 。 我 们 要 成 为 的 ， 不 仅仅 是 单纯 的 “技术 专家 ”， 因 为 每 一 项 
技术 本 身 其 实 都 来 自 于 某 个 研究 领域 对 工具 的 实际 需求 。 比 如 说 ， 地 理 信 息 系统 是 由 地 理 
学 家 的 需求 衍生 和 发 展 出 来 的 ， 而 文本 数据 挖掘 的 技术 则 来 自 于 数字 人 文学 科 的 实际 需求 。 


也 就 是 说 ， 每 个 领域 的 实际 需求 在 引领 着 不 同 技术 的 发 展 。 数 学 这 样 的 从 理论 出 发 的 学 科 国 
然 重要 ， 技 术 也 对 各 个 学 科 的 发 展 起 着 至 关 重 要 的 作用 。 当 学 科 与 数据 科学 交叉 融合 之 时 ， 
都 会 衍生 出 具有 学 科 特 色 的 需求 ， 进 而 不 断 地 推动 学 科 本 身 以 及 数据 科学 不 断 向 前 发 展 。 
数据 科学 的 健康 发 展 离 不 开 每 个 学 科 领 域 独立 的 健康 发 展 ， 学 科 交 又 和 融合 也 变 得 愈 发 普 
志和 不 可 阻挡 。 在 这 样 时 代 性 的 交叉 和 融合 进程 中 ， 数 据 科 学 应 该 担当 起 旗手 的 重任 ， 其 
要 面 对 的 一 大 难题 就 是 什么 样 的 交叉 和 融合 才 是 健康 的 。 


因此 ，Mark 在 描述 他 自己 的 数据 科学 背景 的 时 候 指出 ， 数 据 科学 家 是 一 个 地 地 道道 的 “ 扩 
张 主义 者 ”， 对 这 个 概念 你 也 许 不 会 感到 许 异 。 




































































9.2.1 Processing 


Mark 在 给 艺术 家 和 设计 师 的 编程 课 中 提 到 过 一 种 叫 作 Processing (http://processing.org/) 
的 编程 语言 。 他 以 Processing 为 例 ， 展 示 了 设计 师 和 工程 师 在 编程 时 的 思维 区 别 。 一 门 好 
的 数据 编程 语言 应 该 以 分 析 人 员 的 思维 方式 为 起 点 ， 以 分 析 任 务 为 导向 ， 并 且 具 有 完整 的 
结构 性 。 








我 们 可 以 通过 一 个 思维 实验 来 进一步 探讨 这 个 问题 : 艺术 家 或 者 设计 师 到 底 需 要 什么 样 的 
编程 语言 ? R 在 统计 学 家 和 数据 科学 家 中 流行 ， 是 因为 R 解决 了 他 们 对 于 某 些 分 析 任 务 的 
刚性 需求 ， 比 如 随机 变量 、 分 布 类 、 向 量 和 数据 结构 等 。 相 比 于 R， 一 门 艺 术 家 或 者 设计 
师 使 用 的 编程 语言 应 该 解决 哪些 刚性 需求 呢 ? 

艺术 家 更 加 关心 形状 、 轮 廓 等 人 的 大 脑 中 可 以 想象 的 图 像 元 素 ， 给 艺术 家 的 编程 语言 应 该 
能 够 最 大 程度 上 以 最 直观 的 形式 把 人 脑 内 的 图 像 元 素 外 化 并 且 展 现 出 来 。 素 描 、3D、 动 画 
甚至 是 交互 的 方式 都 可 以 ， 最 重要 的 是 能 够 清晰 和 直观 地 展示 给 人 看 。 








Processing 就 是 这 样 一 门 基 于 Java 的 编程 语言 ， 它 是 专门 给 艺术 家 设计 的 。Mark 说 他 在 给 
艺术 家 和 设计 师 讲 编程 课 的 时 候 ， 要 从 最 基本 的 编程 技巧 说 起 ， 包 括 欠 代 、if 语句 等 。 因 
为 这 些 基 本 的 编程 技巧 在 我 们 看 来 可 能 再 平常 不 过 ， 但 是 对 于 艺术 家 和 设计 师 来 说 却 是 一 
种 狐 新 的 知识 形态 。 因 此 ， 在 给 这 些 人 上 课 的 时 候 ， 他 需要 回 到 原点 ， 从 零 开 始 。 

















9.2.2 Franco Moretti 
Mark 接 下 来 讲 到 了 近 距 离 和 远 距 离 文 本 阅读 的 问题 。 他 首先 提 到 了 斯 坦 福 大 学 的 文学 家 


Fanco Moretti。 
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Franco 认为 “ 远 距 离 阅 读 ” 的 效果 就 是 不 需要 了 逐 行 逐 句 逐 字 地 读 ， 而 只 需要 远 远 地 看 一 下 
就 能 理解 文本 的 大 致 含义 。 这 种 阅读 方式 有 点 类 似 于 对 文本 内 容 的 降 维 (第 8 章 中 我 们 学 
习 了 一 些 典型 的 降 维 技术 )。 








Mark 觉得 Franco 的 例子 很 好 地 说 明了 数据 科学 如 何在 不 同 的 学 科 发 挥 功 效 。 与 其 越 租 代 
应 ， 不 如 以 一 个 旁观 者 的 姿态 细心 学 习 各 个 学 科 的 特点 ， 并 结合 数据 科学 的 要 求 将 二 者 很 
好 地 结合 起 来 。 这 样 一 种 学 习 和 旁观 的 态度 对 数据 科学 的 健康 发 展 起 着 方向 性 的 作用 。 


Wis + 3 r1 
9.3 一 个 数据 可 视 化 的 方案 实例 
下 面 给 大 家 展示 一 些 被 Mark 所 称道 的 可 视 化 案例 。 对 于 每 一 个 案例 ， 我 们 都 应 该 问 这 样 
一 个 问题 : 可视化 的 数据 是 什么 ?这 个 方案 是 该 问题 最 理想 的 可 视 化 方案 吗 ? 























图 9-1 是 一 个 关于 城市 能 源 使 用 量 的 可 视 化 项 目 。 图 中 烟 奥 中 投射 出 来 的 绿色 阴影 的 大 小 
代表 了 该 城市 中 能 源 的 使 用 量 。 























9-1: Helen Evans 和 Heiko Hanse 的 Nuage Vert 可 视 化 案例 (http://youtu.be/l_4rTQCWItw) ( 另 
见 彩 插图 9-1) 








在 另外 一 个 叫 作 One Tree 的 项 目 中 ( 见 图 9-2)， 设计 师 Natalie 把 一 个 种 子 克 隆 了 许多 份 
并 栽培 在 城市 的 不 同 区 域 。 种 子 在 不 同 的 环境 下 成 长 ， 几 年 后 就 变 成 了 一 棵 棵 大 树 。 这 个 
案例 形象 地 展示 了 环境 对 于 植物 生长 的 长 期 影响 。 
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一 棵 树 Natalie Jeremijenko 








Chroi k 





图 9-2: Natalie Jeremijenko 的 One Tree 可 视 化 案例 (http://boingboing.net/2003/05/16/natalie- 


jeremijenkos.html) 


图 9-3 的 案例 叫 作 Dusty Relief, 
形式 表现 出 来 。 





区 | 











中 的 几何 状 建筑 物 可 以 收集 其 周围 的 污染 物 并 以 粉 侍 的 











Dusty Relief, New Territories 











9-3: New Territories 的 Dusty Relief 项 目 (http://www.new-territories.com/roche2002bis.htm)( 另 


见 彩 插图 9-3) 











《纽约 时 报 》 的 研发 实验 室 开 发 了 一 个 叫 作 Project Reveal 的 可 视 化 项 目 ( 见 图 9-4)。 图 中 
的 镜子 内 置 了 一 个 智能 的 面部 识别 系统 ， 只 要 站 在 镜子 对 面 ， 镜 子 上 就 会 显示 关于 你 的 一 
些 个 人 信息 。Mark 说 每 当 站 在 这 个 镜子 前 面 的 时 候 ， 那 种 感觉 是 非常 奇幻 的 ， 难 以 名 状 。 
































Project Reveal (New York Times R&D Lab) 














9-4:《 纽 约 时 报 》 研 发 实验 室 的 Project Reveal MEB (http://nytlabs.com/projects/mirror.html) 




















Laura Kurgan 是 美国 地 理 信息 设计 实验 室 (SIDL) 的 负责 人 ， 图 9-5 是 他 们 设计 的 一 个 叫 
作 “ 百 万 美元 街区 ”的 可 视 化 项 目 。 这 个 项 目的 数据 来 自 谷 歌 的 犯罪 数据 。Laura 提取 了 
监狱 服刑 人 员 的 家 庭 住址 ， 并 计算 出 政府 管理 该 服刑 人 员 所 支出 的 费用 。 因 此 图 中 的 颜色 
深度 代表 了 政府 在 管理 该 区 域 的 服刑 人 员 方 面 所 支出 的 费用 ， 颜 色 越 红 代表 支出 越 高 。 某 
些 街区 的 费用 支出 甚至 高 于 100 万 美元 。 这 个 项 目的 意义 在 于 ， 要 想 在 地 理 信息 图 可 视 化 
上 做 出 新 意 其 实 是 不 易 的 。 这 要 求 研究 人 员 的 可 视 化 思路 非常 开阔 ， 对 数据 的 理解 十 分 透 
彻 。 像 图 9-5 这 样 的 地 理 信息 图 就 体现 了 不 一 样 的 可 视 化 思路 。 









































































































































数据 可 视 化 与 欺诈 侦 测 | 185 





监狱 


管理 开支 


ilion Dollar Blocks (Spatial Information Design Lab) 

















图 9-5; 地 理 信息 设计 实验 室 (SIDL) 设计 的 “ 百 万 美元 街区 ”项 目 (http//www.spatialinform- 
ationdesignlab.org/) ( 另 见 彩 插图 9-5) 


9.4 Mark 的 数据 可 视 化 项 目 


我 们 对 Mark 的 个 人 影响 以 及 他 的 数据 科学 哲学 已 经 有 了 大 致 的 了 解 。 接 下 来 我 们 来 看 一 
看 Mark 本 人 的 一 些 可 视 化 项 目 。 





9.4.1 《纽约 时 报 》 大 厅 里 的 可 视 化 : Moveable Type 

Mark 带 我 们 参观 了 他 和 他 多 年 的 合作 者 媒体 艺术 家 Ben Rubin 一 起 完成 的 一 项 位 于 《纽约 
时 报 》 总 部 大 厅 里 的 可 视 化 项 目 (在 完成 这 个 项 目 之 后 ，Mark 就 利用 休假 的 一 年 时 间 去 
了 《纽约 时 报 》 的 研发 实验 室 工作 )。《 纽 约 时 报 》 曼 哈 顿 中 心 区 总 部 大 楼 位 于 纽约 42 街 
第 八大 道 ， 这 个 可 视 化 项 目 就 展示 在 总 部 大 楼 的 一 楼 大 厅 内 ， 图 9-6 就 是 这 个 项 目 在 展示 
时 的 情景 。 
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图 9-6:《 纽 约 时 报 》 总 部 大 厅 ，Moveable Type 可 视 化 项 目 ， 作 者 : Ben Rubin 和 Mark Hansen 


该 项 目 使 用 了 两 面 墙 ， 每 面 墙 280 个 文本 显示 盒子 ， 共 计 560 个 。 每 个 屏幕 循环 显示 一 系 
列 设 计 好 的 情景 ， 每 个 情景 都 包含 一 个 由 数据 模型 驱动 的 情景 主题 。 


对 于 每 个 显示 盒子 上 要 展示 的 情景 ， 其 背后 的 数据 都 来 自 《纽约 时 报 》 的 网 站 内 容 ， 包 括 
新 闻 、 博 客 以 及 搜索 引擎 结果 等 。 对 网 站 内 容 的 解析 使 用 了 斯 坦 福 大 学 的 自然 语言 处 理 技 
术 (http:/nlp.stanford.edu/) ， 该 技术 可 以 将 文本 内 容 图 解 化。 这 些 图 解 化 的 文本 内 容 经 过 
数据 模型 被 进一步 情景 化 。 该 项 目 最 初 设 计 了 总 计 15 个 情景 ， 每 个 情景 的 数据 模型 都 通 
过 编程 实现 ， 因 此 修改 也 比较 容易 。YouTube 上 有 关于 Mark 和 Ben 对 于 该 项 目的 访谈 视 
频 ， 感 兴趣 的 读者 可 以 搜 来 看 一 看 (http://goo.gl/yhCG69) , 


举 其 中 三 个 情景 主题 为 例 。 一 个 情景 是 用 文字 波浪 的 形式 展示 对 某 篇 文章 文本 的 解析 结 
果 。 每 一 篇 文章 都 用 一 段 简短 的 语句 表示 ， 不 同 的 文章 之 间 通 过 这 样 一 段 简短 的 语句 就 基 
本 可 以 感知 该 文章 的 基本 内 容 了 。 


另外 一 个 情景 不 使 用 文字 波浪 模型 ， 其 背后 的 数据 模型 可 以 提取 出 更 加 简要 的 文本 结果 ， 
通常 只 包含 一 个 数值 和 一 个 名 词 的 组 合 ， 比 如 “18 只 大 猩猩 “。 这 样 的 名 词组 合 会 投射 到 
显示 器 上 并 展示 出 来 。 

第 三 个 情景 更 加 有 趣 ， 显 示 屏 会 显示 一 个 个 自动 化 的 填 字 游戏 ， 甚 填 字 的 过 程 还 伴随 着 铅 
笔划 纸 的 响声 ， 给 人 的 感觉 就 是 显示 屏 在 自己 完成 一 个 又 一 个 填 字 游 戏 ， 非 常生 动 。 

图 9-7 就 是 一 种 显示 盒子 的 内 部 图 ， 看 起 来 非常 复古 。 每 个 显示 屏 其 实 都 包含 一 个 独立 的 、 
运行 着 Python 的 Linux 处 理 器 ， 以 及 一 个 声卡 用 来 模拟 各 种 各 样 的 声音 ， 比 如 钟 的 滴答 声 、 
打字 的 声音 、 波 浪 的 声音 等 。 具 体 发 出 何 种 声音 要 取决 于 显示 屏 所 要 展示 的 情景 主题 。 
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图 9-7; Moveable Type 的 显示 盒子 


9.4.2 ”屏幕 上 的 生命 ，Cascade 可 视 化 项 目 

Mark 接 下 来 提 到 了 Cascade 项 目 ， 该 项 目 是 由 Mark 和 他 的 合作 者 Jer Thorp 共同 设计 完成 
的 。Jer 是 《纽约 时 报 》 的 数据 艺术 家 ， 同 时 也 在 bit.ly 兼职 。Cascade 的 可 视 化 对 象 是 人 
们 在 Twitter 上 对 《纽约 时 报 》 文 章 链接 的 分 享 行为 。 
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该 项 目 试图 通过 分 析 足 够 的 数据 ， 较 为 完整 地 展示 《纽约 时 报 》 链 接 被 浏览 、 编 译 (通过 
bit.ly)、 分 享 、 解 译 (也 是 通过 bitly) 和 点 击 的 过 程 。 图 9-8 就 是 对 这 个 过 程 的 可 视 化 结 
果 ， 看 起 来 和 Tarde 当初 的 建议 不 谋 而 合 。 


























T OP-ED COLUMNIST; E 


By PAUL KRUGM 


@timoreilly 














9-8: Jer Thorp 和 Mark Hanse 的 作品 : Cascade MB 〈 另 见 彩 插图 9-8) 


对 于 Twitter 的 数据 可 视 化 ， en dt bep dM 比如 说 ， 如 果 有 17 条 
推 文 都 是 关于 同一 条 链接 的 ， 那 么 就 很 难 确认 到 底 哪 一 条 “ 推 文 /链接 ”组 合 是 实际 上 被 人 
点 击 的 。 我 们 可 以 通过 “ 猜 ” 的 方式 ， 比如 使 用 概率 模型， 根据 时 间 戳 信息 大 致 猜 出 哪 条 
组 合 被 点 击 的 可 能 性 最 高 。 另 外 ，Twitter 上 的 互 粉 关系 也 会 被 考虑 进来 ， 比 如 说 ， 如 果 你 
的 好 友 在 你 之 前 发 布 了 同一 条 链接 的 推 文 ， 那 么 你 的 推 文 很 可 能 只 是 对 好 友 推 文 的 转发 。 





























对 这 个 项 目 感 兴 趣 的 读者 可 以 尝试 去 YouTube 观看 有 关 这 个 项 目的 视频 介绍 (http://goo. 
gl/luAOcg8)。 


RA 





这 个 项 目 在 两 年 前 就 已 经 完成 了 。 在 这 过 去 的 两 年 时 间 里 ，Twitter 的 规模 已 
心 4， 经 发 生 了 翻天 覆 地 的 变化 。 


i 
e. 











9.4.3 Cronkite 广 场 项 目 
另外 一 个 可 视 化 项 目 展示 在 位 于 得 克 了 萨 斯 州 大 学 奥斯汀 分 校 的 Cronkite 广场 。 该 项 目 由 
Mark, Jer 和 Ben 共同 设计 完成 ， 它 仍然 与 新 闻 内 容 有 关 ， 但 是 从 图 9-9 中 可 以 看 出 ， 文 
字 被 投射 在 了 整个 大 楼 的 外 部 结构 上 。 
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9-9: Jer Thorp, Mark Hanse 和 Ben Rubin 共同 设计 制作 完成 的 项 目 : And That's The Way It Is 
(“就 应 该 这 样 ”) 


pers 广场 上 ， 每 天 晚上 这 些 词语 会 被 6 个 不 同 的 投影 仪 投射 在 这 个 建筑 物 的 外 墙 

上 。 这 些 词语 的 来 源 包 括 Walter Cronkite 的 新 闻 联 播 以 及 一 些 当 地 的 闭幕 电台 节目 的 新 闻 
内 容 。 词 语 是 某 条 新 闻 内 容 的 提炼 ， 以 句子 的 形式 投射 在 外 墙 上 。 璧 如 ， 墙 上 会 出 现 类 似 
“她 到 底 该 作 何 反 应 呢 ? ”或 者 “你 会 养 什么 样 的 狗 狗 ?” ”等 ， 类 似 于 新 闻 的 标题 ， 但 是 
更 加 简约 。 











9.4.4 eBay 与 图 书 网 购 

Mark 的 另外 一 个 项 目 是 eBay 网 站 上 的 图 书 网 购 数据 的 可 视 化 ， 这 个 项 目 是 他 和 Jer Thorp 
共同 设计 制作 完成 的 。 试 想 一 下 ， 如 果 让 你 把 eBay 网 站 上 最 近 两 年 经 由 PayPal 支付 的 图 
书 网 购 数据 用 可 视 化 图 形 的 方式 展现 出 来 ， 你 该 如 何 下 手 呢 ? Mark 和 Jer 为 eBay 设计 了 
一 个 实体 的 可 视 化 方案 ， 并 在 2012 年 举办 的 两 年 一 次 的 ZERO1 大 会 上 展示 了 他 们 的 成 
JE. Bg 9-10 就 是 这 个 项 目 在 eBay 大 楼 前 展示 的 照片 ， 显 示 的 具体 内 容 类 似 于 图 9-11。 




































































图 9-10: Jer Thorp 和 Mark Hanse 设计 : eBay 的 图 书 网 购 数 据 可 视 化 项 目 





4106.00,CHINESE OLD SIGNED CERAMIC SHUDEI BONSAI POT KYUSU NR 
712.50,0mron HEM-650 Wrist Blood Pressure Monitor with APS 
499.99,Panasonic TC-P42X3 42" Viera Plasma HDTV 

491.00,$500 Best Buy Gift Card for $491.00 

372.23,Droid Incredible 2 (Verizon) 

346.99,Hondo Chiquita Guitar 

329.70,I1MATION CD-RW 48 SPINDLES 

324.25,1979 Camellias of Yunnan Souvenir Miniature Stamp sheet 
287.00,DIESEL New $690 Leather Jacket Coat M 

279.79,NEW CALLAWAY TOP FLITE COMPLETE MRH GOLF CLUBS SET BLUE 
275.88, AMAZING LABRADORITE 925 SILVER CUFF BRACELET BA31 
227.16,NEW Chefs Banquet Survival Emergency Food 330 servings 
212.30,Authentic Prada Blue Bag 

203.50,Superb Chinese Carved Jade Plaque 18th C. 

189.00,NEW IDF Tactical Combat Vest with Removable Backpack 
187.98,HP OfficeJet Pro 8500A PLUS A10 Printer A910g NEW 
182.90,Cisco Small Business RV042 Dual WAN VPN Router -  RV042 
174.95,PHILIPPE STARCK Black VEILED Stainless VEIL NEW! PH5022 
173.23,14K. GOLD CHANDELIERS EARRINGS NATURAL BLUE TOPAZ GEMS 
137.99,FUJI FINEPIX JZ300 10x 12MP DIGITAL CAMERA SILVER NEW 
126.00,New Stock White/Ivory Wedding Dress Sz:6/8/10/12/14/16 
124.64,Lot of 700 HP 02 Mixed Colors Empty Ink Tank Cartridges 
116.40,Goddess of Wisdom 2001 Barbie Doll NIB Mint Condition 
112.08,Littmann Cardiology III Stethescope 

111.11,ALLEN EDMONDS PARK AVENUE OX BLACK 8 D MEDIUM $325 
105.95,REPRODUCTION GERMAN WWII WOOL SOCKS SIZE 2 RING (9-10) 
99.00,TOSHIBA SATELLITE L305-S5875 15.4" WXGA LCD SCREEN 
97.58,calvin klein men's slim fit plaid suit pants 

90.00,Pear Shape Diamond 

80.30,HAPPY CHLOE DUCK 2010 SWAROVSKI RETIRED #1041293 
79.99,Cisco 2600 series 2611 2-port Ethernet Router CCNA CCNP 
77.77,PRO BICYCLE MECHANICS XLC TOOL KIT 33pc BIKE REPAIR SET 
74.90,NEW LG VX10000 VOYAGER OWERTY TXT MP3 PHONE VERIZON 
69.94,Modern Jacquard Bedding Comforter Set Queen Black/Grey 
67.49,pearl gameboy advanced SP metal case 18 gamesECT. 











9-11; eBay 项 目 背 后 的 真实 数据 
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他 们 最 后 想 出 来 的 可 视 化 方案 非常 具有 独创 性 。 首 先 ， 他 们 选 了 Arthur Miller 的 著作 《 推 
销 员 之 死 》(http:Wen.wikipedia.org/wiki/Death_of a Salesman) 里 的 文本 内 容 ， 并 使 用 土 


耳 其 机 器 人 ( 见 第 7 章 ) 在 文本 中 选择 可 以 在 eBay 上 买 到 的 东西 ， 比 如 “椅子 ”“ 长 
笠 ”" “桌子 ”等 类 似 的 商品 名 。 


当 收 集 到 一 串 (10 个 左右 ) 商品 名 后 ， 再 在 当天 的 销售 额 数据 中 找 出 该 商品 的 交易 情况 ， 
并 找到 一 些 异 常 值 ， 比 如 最 大 值 和 最 小 值 。 在 检查 完 每 一 个 商品 名 的 销售 情况 之 后 ， 程 序 
会 在 美国 的 邮编 数据 中 挑选 一 个 邮编 号 码 ， 通 常 是 一 些小 地 方 ， 比 如 蒙 大 拿 州 。 
接 下 来 书籍 的 网 购 数据 被 定位 到 蒙 大 拿 州 ， 在 所 有 来 自 蒙 大 拿 州 的 支付 信息 中 随机 挑选 一 
本 书 ， 再 从 这 本 书 里 找 可 以 买 到 的 商品 名 ， 并 重复 上 述 过 程 。 要 直观 地 了 解 整个 可 视 化 过 
程 是 如 何 进行 的 ， 可 以 参考 网 上 提供 的 一 段 视频 (https://vimeo.com/50146828) 。 


























9.4.5 ”公共 剧场 里 的 “莎士比亚 机 

最 后 一 件 作 品 来 自 于 Mark、Rubin 和 Thorp， 安 装 在 美国 公共 剧院 的 大 厅 里 。 该 项 目 是 由 
37 块 LED 片 形 灯 组 构成 的 一 个 穹顶 型 结构 ， 被 吊顶 安装 在 大 厅 接 待 处 的 正 上 方 ， 有 具体 可 
参考 图 9-12。 每 一 块 片 形 灯 组 都 对 应 于 莎士比亚 37 部 戏剧 中 的 一 部 ， 灯 组 的 长 度 越 长 代 
表 该 剧 的 长 度 越 长 。 


因此 ， 当 你 已 进入 大 厅 的 时 候 ， 正 对 着 你 的 就 是 莎士比亚 作品 中 最 长 的 一 部 戏剧 作品 《 哈 
姆 雷 特 》。 




















图 9-12 :“ 落 士 比 亚 机 "， 作 者 : Mark, Jer 和 Ben 
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每 片 灯 组 负责 展示 相应 戏剧 的 不 同 主题 ， 输 入 的 数据 就 是 该 剧 所 有 的 文本 内 容 ， 而 主题 不 
同 显示 的 内 容 也 不 同 。 比 如 说 ， 某 个 主题 只 显示 该 剧 正文 中 出 现 的 某 个 名 词 ， 某 个 主题 选 
择 显示 词组 ， 而 另外 一 个 主题 可 能 会 选择 显示 一 些 剧 中 出 现 过 的 组 合 词 。 








注意 ， 针 对 这 些 数据 ， 这 里 的 所 谓 数字 人 文通 过 MONK 项 目 (http://monkproject.org) 提 
供 了 极为 丰富 的 XML (http://en.wikipedia.org/wiki/XML) 展示 。 





Mark 说 ， 由 于 是 莎士比亚 的 缘故 ， 因 此 不 管用 什么 样 的 主题 ， 这 样 的 可 视 化 方式 都 会 显 
得 很 棒 。 但 是 ， 他 们 也 在 芳 虑 如 何 通 过 这 样 的 灯 组 更 好 地 展现 每 部 戏剧 的 特色 : 比如 把 字 
符 看 作 符号 ， 或 者 看 作 关 键 词 或 者 演讲 词 等 ， 再 通过 合适 的 组 合 方式 更 加 多 元 化 地 展示 每 
一 部 戏剧 。 





现在 让 我 们 回 到 Mark 在 最 初 向 大 家 提出 的 一 个 最 基本 的 问题 : 到 底 什 么 是 数据 呢 ? 答案 
是 : 数据 就 是 生活 ， 它 无 处 不 在 。 


Mark 在 最 后 对 如 何 获取 数据 给 了 一 条 很 中 肯 的 建议 : 做 一 个 谦卑 有 礼 的 数据 搜集 者 ， 因 
为 人 们 总 是 更 愿意 将 数据 交 给 他 们 觉得 更 谦卑 和 有 礼 的 人 。 














9.4.6 ”这 些 展 览 的 目的 是 什么 

这 些 展 览 既 具有 艺术 和 美学 特征 ， 又 内 容 丰 富 ， 并 且 在 设计 时 也 避免 了 过 重 的 说 教 性 质 。 
总 体 的 设计 原则 是 在 美学 和 内 容 间 找到 一 个 平衡 点 。 这 些 展览 都 具有 故事 性 ， 不 会 让 观众 
觉得 乏味 。 由 于 各 种 编程 和 设计 工具 的 高 度 整合 和 数字 化 ， 统 计 学 家 的 作品 看 起 来 也 越 来 
越 具有 艺术 性 ， 设 计 师 的 作品 也 开始 包含 更 多 的 数据 和 统计 学 元 素 。 这 样 的 整合 趋势 在 刚 
才 所 展现 的 很 多 展览 作品 中 ， 大 家 应 该 都 深 有 感触 。 


9.5 ”数据 科学 和 风险 


接 下 来 来 自 旧金山 的 Ian Wong 将 带 来 有 关 数 据 科学 和 风险 管理 的 内 容 。Ian 是 Square 公司 
的 统计 学 家 ， 他 博士 就 读 于 斯 坦 福 大 学 电子 工程 专业 ， 主 攻 机 器 学 习 方 向 ， 但 是 他 中 途 退 
学 了 (他 获得 过 统计 学 和 电子 工程 学 的 硕士 学 位 )。 在 讲课 的 时 候 ，Ian 尚 就 职 于 Square, 
但 他 随后 就 从 Square 跳槽 去 了 Prismatic， 一 家 个 性 化 新 闻 订 阅 服务 商 。 

















Ian 在 刚 开 始 就 给 了 大 家 三 条 心得 。 


。 机 器 学 习 不 等 于 写 R 程 序 
机 器 学 习 根 植 于 数学 ， 它 的 最 终 成 果 是 通过 编程 实现 的 软件 产品 的 有 机 组 合 。 要 做 好 机 
器 学 习 ， 你 必须 具备 相当 的 程序 开发 技能 ， 能 写 一手 麻 亮 的 程序 ， 且 这 些 程序 要 具备 良 
好 的 可 读 性 和 可 实现 性 。 程 序 的 最 终 受众 是 广大 用 户 而 不 是 你 自己 ， 因 此 你 应 该 确保 程 
序 经 得 起 反复 推荐 ， 并 能 够 实现 产品 化 。 
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。 数据 可 视 化 不 仅仅 是 一 张 好 图 
对 于 一 家 优秀 的 数据 产品 公司 来 说 ， 可 视 化 应 该 成 为 产品 开发 文化 的 一 个 重要 组 成 部 
分 。 好 的 数据 产品 应 该 有 经 过 仔细 构思 的 可 视 化 模块 ， 同 时 ， 好 的 可 视 化 模块 能 够 带 给 
用 户 更 好 的 产品 体验 。 





。 机 器 学 习 与 可 视 化 推动 着 人 工 智能 的 发 展 
人 类 本 身 的 认 知 能 力 是 十 分 有 限 的 。 然 而 ， 借 助 于 数据 和 数据 科学 ， 我 们 有 如 披 上 了 超 
人 的 外 衣 ， 得 以 在 原本 一 片 混沌 的 信息 世界 中 自由 勒 翔 。 











9.5.1 关于 Square 公司 
Square 成 立 于 2009 年 ， 其 创始 人 是 Jack Dorsey 和 Jim Mckelvey。 公 司 在 2011 年 有 50 名 
员工 ， 到 2013 年 已 经 发 展 到 了 500 名 员工 。 


Square 的 创始 人 觉得 ， 现 实生 活 中 的 交易 都 大 过 复杂 ， 无 论 从 支付 方 还 是 收 款 方 来 看 ， 现 
有 的 支付 方式 似乎 都 显得 过 于 烦琐 。Square 要 解决 的 核心 问题 就 是 ， 如 何 使 交易 变 得 简单 
易 行 ， 以 至 于 每 个 人 都 可 以 轻松 地 参与 到 商业 活动 中 来 ? 


Square 给 出 了 一 种 商业 模式 。 首 先 收 款 方 〈 商 家 ) 需要 在 Square 上 成 为 注册 用 户 ， 下 载 
Square 开发 的 官方 程序 ， 之 后 Square 公司 会 将 一 个 信用 卡 读 卡 器 邮寄 给 该 商家 。 商 家 在 收 
到 读 卡 器 之 后 ， 可 以 把 读 卡 器 和 手机 绑 定 〈 例 如 将 读 卡 器 播 在 手机 的 数据 线 接口 上 )， 打 
JF Square 程序 即 可 接受 支付 。Square 提供 的 小 型 读 卡 器 为 很 多 小 型 商家 提供 了 一 种 最 为 迅 
捷 的 支付 方式 。 在 波 特 兰 和 旧金山 ， 很 多 赶 时 此 的 咖啡 馆 都 开始 采用 Square 的 支付 方式 。 
对 于 消费 者 来 说 ， 所 要 做 的 只 是 拿 出 信用 卡 ， 在 Square 的 读 卡 器 上 刷卡 ， 最 后 在 iPad 上 
签 上 自己 的 名 字 。 
































4T 


当然 ， 如 果 消 费 者 (买方) 成 为 Square 的 注册 用 户 ， 也 可 以 从 中 受益 。 你 可 以 使 用 Square 
提供 的 电子 钱包 程序 ， 这 样 当 你 在 付款 给 Square 的 注册 卖家 时 ， 甚 至 都 不 需要 出 示 信 用 卡 
便 可 以 直接 支付 ， 卖 家 所 要 做 的 只 是 在 iPad 的 Square 程序 里 点 击 你 的 名 字 。 


固然 ，Square 想 为 卖家 提供 最 为 迅捷 的 支付 服务 ， 但 他 们 也 同样 需要 做 好 电子 支付 的 风险 
防范 工作 。 下 面 我 们 就 详细 讨论 一 下 Square 支付 模式 所 面临 的 风险 以 及 相应 的 防范 措施 。 








9.5.2 ”支付 风险 

Square 的 宗旨 是 为 买方 和 卖方 提供 最 为 迅捷 和 自由 的 支付 体验 ， 然 而 这 促 生 了 一 小 批 可 
能 会 滥用 该 服务 的 使 用 者 。 比 如 说 ， 支 付 欺诈 这 样 的 违法 行为 不 仅 会 严重 损害 用 户 体验 ， 
也 是 在 挑战 公司 的 价值 和 底线。 因此， 如何 打 造 一 个 稳健 并 且 高 度 有 效 的 风险 管理 系统 是 
Square 公司 想 要 保持 健康 发 展 所 要 解决 的 核心 问题 。 











那么 到 底 如 何 才能 有 效 地 检测 用 户 的 支付 操作 并 侦探 出 可 能 的 欺诈 行为 呢 ? Ian 解释 说 ， 
他 们 在 开发 这 样 一 套 风 险 管 理 系统 时 ， 很 好 地 将 机 器 学 习 和 数据 可 视 化 技术 结合 了 起 来 。 


机 器 学 习 在 可 疑 支 付 行为 侦 测 中 的 应 用 
到 底 什么 样 的 支付 行为 是 “可 疑 ”的 ? 这 是 我 们 要 最 先 定 义 的 概念 。 以 下 一 些 异 常 现 象 要 
引起 我 们 的 注意 : 同一 时 间 内 进行 了 大 量 小 额 支付 、 突 然 发 生 的 大 额 交 易 或 者 是 不 同 于 平 
常 交易 频率 的 交易 (不 一 致 交 易 频 率 ) 等 。 


我 们 这 里 给 出 一 个 例子 。 比 如 John 有 一 辆 运送 食材 的 卡车 ， 在 他 开始 物流 业务 的 几 周 后 ， 
他 在 Square 上 的 第 一 笔 支付 金额 是 1000 美元 。 那 么 这 样 的 一 笔 支付 有 没有 可 能 是 可 疑 支 
付 呢 ? 这 很 难 直 接 看 出 来 ， 因 为 John 可 能 是 有 偿还 能 力 的 (可 靠 用 户 )。 然 而 一 旦 John 是 
一 个 支付 欺诈 者 ， 那 么 所 有 的 支付 金额 都 将 由 Square 自己 买单 。 因 此 ，Square 所 能 赚 取 的 
利润 与 他 们 的 风险 管理 水 平 有 着 直接 关系 ， 他 们 应 该 想 尽 办 法 尽量 避免 不 可 靠 用 户 使 用 他 
们 的 支付 服务 。 


但 是 反 过 来 说 ， 如 果 John 有 足够 的 偿付 能 力 ， 而 Square 将 他 视 作 不 可 靠 用 户 ， 这 会 在 很 
大 程度 上 影响 Square 的 公司 声誉 和 产品 的 用 户 体验 ， 也 会 直接 影响 Square 的 利润 率 。 
JE, Square 的 风险 管理 系统 既 不 能 过 于 保守 ， 也 不 能 过 于 宽松 ;过 于 保守 会 失去 很 多 可 能 
的 可 靠 用 户 ， 而 过 于 宽松 会 让 很 多 欺诈 用 户 有 机 可 乘 。 




















这 个 例子 很 好 地 说 明了 Square 公司 在 开发 风险 管理 系统 时 所 面临 的 两 难 境地 ， 从 机 器 学 习 
的 角度 来 说 ，Square 需要 同时 考虑 伪 阳 性 和 伪 阴 性 的 问题 : 伪 阳 性 会 损害 用 户 体验 ， 而 伪 
明 性 会 让 公司 蒙受 直接 的 经 济 损失 。 


从 公司 的 角度 来 看 ， 来 自 于 买方 和 卖方 的 风险 都 需要 考虑 。 本 章 主要 考虑 来 自 于 卖方 的 风 
险 ， 也 就 是 收 款 方 〈 比 如 John) 可 能 带 来 的 风险 。 








Square 公司 每 天 要 处 理 的 交易 额 高 达 数 百 万 美元 ， 因 此 这 样 一 个 风险 管理 系统 需要 自动 
化 ， 并 且 有 足够 快 的 反应 速度 。 对 每 一 笔 交 易 和 每 一 个 用 户 ， 都 能 及 时 做 出 判断 。 那 么 这 
样 一 个 系统 到 底 应 该 如 何 实现 呢 ? 其 背后 的 数据 又 是 什么 样子 呢 ? Ian 先 展示 了 该 系统 中 
的 三 种 数据 形态 ， 可 见 图 9-13、 图 9-14 和 图 9-15, 





















































图 9-13: 支付 数据 
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图 9-14. 卖方 数据 

















图 9-15: 结算 数据 
这 里 一 共 涉 及 三 种 类 型 的 数据 : 


。 第 一 种 是 支付 数据 ， 包 含 交易 号 、 卖 家 识别 号 、 买 家 识别 号 、 交 易 额 、 交 易 成 功 与 否 、 


以 及 时 间 改 等 信息 ， 
。 第 二 种 是 卖家 数据 ， 包 括 卖家 识别 号 、 卖 家 注册 日 期 、 卖 家 店铺 名 称 、 店 铺 类 型 、 店 铺 
位 置 等 信息 3 


。 第 三 种 是 结算 数据 ， 包 括 结算 识别 号 、 结 算 发 生地 和 时 间 戳 信息 等 。 


在 Square 上 的 每 笔 交 易 都 会 在 一 整 天 之 后 结算 ， 因 此 风险 管理 系统 对 交易 的 风险 度 识别 并 
不 需要 在 分 秒 内 完成 。 当 然 ， 处 理 的 速度 固然 是 越 快 越 好 。 


图 9-16 是 这 个 风险 管理 系统 的 交易 处 理 流程 图 。 每 一 项 交易 活动 的 具体 信息 都 会 经 过 风险 
模型 的 分 析 ， 完 全 不 可 疑 的 交易 可 以 直接 通过 审查 ， 可 疑 的 交易 会 再 经 过 一 过 人 工 核查 。 
人 工 核查 会 更 加 仔细 ,分 析 人 员 会 就 可 疑 的 交易 信息 逐条 分 析 以 确保 风险 可 控 。 在 人 工 核 
查 阶段 确认 可 疑 的 交易 会 被 冻结 ， 该 项 交易 会 交 给 后 续 分 析 人 员 以 作 进一步 的 深 度 核查 。 
所 有 确认 安全 的 交易 会 进入 结算 阶段 (图 9-15 的 结算 数据 就 来 自 于 该 阶段 )。 


Jue 


在 风险 稽查 员 
核查 期 间 资金 冻结 



























图 9-16: 风险 管理 模型 的 运行 流程 图 
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接 下 来 的 问题 就 是 如 何 搭建 图 9-16 中 的 风险 模型 。 同 所 有 机 器 学 习 模型 一 样 ， 风 险 模型 的 
输入 值 是 有 关 交 易 的 特征 变量 ， 输 出 值 可 以 是 一 个 二 元 值 (1 代表 可 疑 ，0 代表 不 可 疑 )。 
因此 从 机 器 学 习 的 角度 来 看 ， 这 是 一 个 典型 的 监督 式 学 习 问 题 。 但 从 操作 层面 来 看 ， 这 个 
模型 远 远 不 止 一 个 监督 学 习 模 型 那么 简单 。 从 流程 图 中 我 们 知道 ， 模 型 的 结果 要 比 单纯 的 
二 元 值 复杂 得 多 ， 有 些 交易 会 被 标记 为 恨 性 交易 而 直接 通过 ， 有 些 会 被 标记 为 恶性 交易 而 
直接 否决 ， 更 多 的 是 可 疑 交易， 需要 交 给 人 工 核查 人 员 以 便 进 一 步 确 认 其 风险 。 有 具体 有 多 
少 种 标记 方式 要 由 风险 管理 团队 讨论 决定 。 


因此 ， 严 格 意义 上 来 说 ， 这 算是 一 个 半 监 督学 习 模型 ， 它 具备 监督 学 习 模 型 的 典型 特征 ， 
也 有 一 定 程 度 的 非 监督 学 习 特 性 。 因 为 非 监 督 模型 的 特性 ， 到 底 应 该 有 多 少 个 标签 是 需 
不 断 调 整 和 改变 的 。 但 是 需要 注意 的 是 ， 在 经 过 几 个 月 的 模型 打磨 之 后 ， 模 型 的 非 监督 性 
质 会 逐渐 消失 ， 最 后 会 成 为 一 个 严格 意义 上 的 监督 性 学 习 模 型 。Ian 接 下 来 要 着 重 与 大 家 
分 享 的 内 容 主 要 是 有 关 监 督 性 学 习 模型 的 。 


众多 周知 ， 监 督 性 学 习 模 型 大 致 包括 以 下 几 个 步骤 : 


。 获取 数据 ; 

。 提取 特征 变量 ， 
。 训练 模型 ， 
。 评估 模型 效 
。 应 用 模型 。 
然而 ， 在 实际 问题 中 合理 地 实现 这 些 步骤 也 并 非 易 事 。 就 连 上 述 步骤 的 顺序 是 否 应 该 严格 
遵守 都 众说 纷 经 。Ian 则 建议 大 家 在 建 模 之 前 应 该 充分 地 分 析 问 题 ， 了 解 问题 的 实质 并 且 
明确 分 析 的 目标 。 也 就 是 说 ， 要 在 模型 建立 之 前 就 想 好 如 何 评估 模型 的 效果 。 
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9.5.3 ”模型 效果 的 评估 问题 

现在 让 我 们 集中 精力 关注 一 下 模型 效果 的 评估 问题 。Ian 提 到 ， 人 们 大 约会 在 以 下 三 种 情 
DU MERERI. 

定义 误差 指标 

到 底 如 何 衡量 模型 的 建 模 效果 是 十 分 重要 的 问题 。 之 前 我 们 讨论 过 的 混 请 矩阵， 又 称 作 真 
值 功能 表 ， 是 衡量 分 类 模型 效果 的 标准 工具 ， 如 表 9-1 所 示 。 

表 9-1: 实际 值 预 测 值 列 联 表 ， 也 叫 作 混淆 矩阵 
”实际 值 = 真 。 实际 值 - 假 。 

预测 值 = 真 TP ( 真 阳性 FP ( 伪 阳 性 ) 

预测 值 = 假 EN (PHE) TN ( 真 明 性 ) 


























— 
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最 常见 的 模型 指标 是 模型 的 准确 度 (accuracy)， 根 据 表 9-1 中 的 符号 表示 ， 它 的 定义 为 : 


TP + TN 
TP t TN t FP * FN 





准确 度 — 


准确 度 可 以 解释 为 模型 答对 标签 类 型 的 概率 。 但 是 对 于 交易 中 的 欺诈 行为 来 说 ， 因 为 阳性 
值 的 总 数 偏 少 "， 因 此 准确 度 很 难 准确 地 衡量 模型 预测 效果 的 好 坏 。 这 是 因为 即便 假设 所 有 
的 预测 值 都 是 阴性 ， 模 型 也 会 有 较 高 的 准确 度 ， 因 为 大 多 数 实际 值 都 是 阴性 。 但 是 很 明显 
这 个 假设 没有 任何 的 预测 价值 ， 我 们 所 关心 的 是 阳性 值 。 


在 这 种 情况 下 ， 精 确 度 (precision) 或 者 召回 率 (recall) 则 能 更 好 地 体现 模型 的 预测 效果 。 
精确 度 的 定义 如 下 : 












































TP 
TP t FP 





精确 度 = 


它 的 含义 是 指 被 预测 为 欺诈 的 交易 事实 上 确实 是 欺诈 交易 的 概率 。 
召回 率 的 定义 为 : 





TP 
TP + FN 





召回 率 = 





它 的 含义 是 事实 上 是 欺诈 的 交易 可 以 被 模型 侦 测 出 来 的 概率 。 到 底 应 该 使 用 哪 一 个 指标 取 
决 于 很 多 因素 。 就 成 本 因素 来 说 ， 未 侦 测 到 的 其 诈 行为 与 侦 测 有 误 的 交易 所 导致 的 成 本 ， 
对 于 不 同 的 数据 和 不 同 的 数据 问题 ， 其 区 别 是 巨大 的 ， 而 且 前 者 的 计算 比较 容易 ， 后 者 属 
于 潜在 成 本 ， 很 难 准确 计算 。 












































定义 标签 
标签 值 对 于 监督 性 学 习 的 重要 性 不 言 而 喻 ，Ian 认为 标签 信息 是 “ bend 半数 据 。 
在 本 科 阶 段 的 统计 学 课程 和 很 多 数据 科学 竞赛 中 ， 通 常数 据 的 标签 信息 都 是 给 定 的 。 但 在 


实际 数据 中 ， 标 签 信息 是 最 难 定义 和 捕捉 的 信息 ， BB B 
蕊 不 仅 与 我 们 的 目标 函数 有 关 ， 它 在 很 多 情况 下 就 是 我 们 建 模 的 目的 所 在 。 


对 Square 公司 来 说 ， 定 义 好 标签 值 是 至 关 重 要 的 一 环 ， 因 为 准确 地 定义 标签 值 意味 着 准确 
地 定义 了 以 下 概念 。 


。 什么 是 可 颖 的 交易 。 

。 数据 的 “粒度 ”如 何 ? 是 以 事件 〈 交 易 ) 为 主体 ， 还 是 以 个 体 (用 户 ) 为 主体 ， 还 是 以 
两 者 为 主体 ? 

。 我 们 能 否 得 到 可 靠 的 标签 值 ? 是 否 需要 从 外 部 数据 中 获取 更 多 的 信息 以 帮助 做 出 判断 ? 











注 1: 也 就 是 说 大 多 数 交 易 还 是 属于 正常 交易 。 
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最 后 Tan 提 到 ， 标 签 值 定义 中 的 不 确定 性 将 给 模型 本 身 的 预测 精度 带 来 很 大 影响 ， 其 中 一 
种 情况 就 是 标签 值 的 “高 度 失调 ”( 比 如 之 前 提 到 的 阳性 数据 量 过 少 的 情况 )。 


特征 选择 与 模型 学 习 过 程 中 的 诸多 挑战 

Ian 说 ,特征 变量 的 提取 是 对 领域 知识 的 抽象 化 和 模型 化 。 一 旦 机 器 学 习 模 型 搭建 好 并 开 
台 运 行 之 后 ， 基 本 上 大 量 的 精力 会 放 在 如 何 更 好 地 抽象 化 领域 知识 、 提 取 特 征 变量 上 : Eb 
如 ， 根 据 模型 的 反馈 ， 添 加 新 的 特征 变量 。 然 而 ， 新 变量 也 并 非 越 多 越 好 ， 因 为 每 个 变量 
的 可 学 习 程 度 是 有 限 的 。 

















当 数 据 明 显 失 衡 的 时 候 ， 要 千 万 小 心 “ 过 拟 合 ” 的 出 现 。 充 分 地 学 习 好 一 个 特征 变量 所 要 
求 的 样本 量 ， 与 模型 所 要 预测 的 标签 值 数 量 是 成 正比 的 〈 在 欺诈 侦 测 的 例子 中 ， 就 是 欺诈 
交易 的 样本 量 )。 


当 某 个 变量 是 分 类 型 变量 并 包含 较 多 类 别 时 ， 其 在 模型 中 的 应 用 要 引起 分 析 人 员 的 额外 注 
意 。 比 如 说 “邮政 编码 ”这 样 的 分 类 变量 可 能 有 成 百 上 千 个 不 同 的 类 别 ， 但 是 在 建 模 过 程 
中 ， 这 样 多 类 别 的 分 类 变量 基本 是 无 用 的 。 需 要 通过 组 合 的 方式 加 以 简化 。Ian 和 他 的 团 
队 甚至 动用 了 模型 ， 只 为 了 减少 某 些 分 类 变量 的 类 别 个 数 。 


第 二 个 问题 与 数据 的 稀 足 度 有 关 。 对 于 新 注册 的 卖家 ， 这 个 问题 显得 尤为 重要 。 新 卖家 的 
注册 信息 对 于 模型 来 说 是 未 知 的 ， 而 在 建 模 之 前 又 必须 先 做 好 特征 的 定义 和 提取 。 如 果 新 
卖家 的 注册 内 容 包 含 很 多 新 的 信息 ， 已 有 的 特征 指标 系统 就 会 显得 过 于 保守 和 陈 上 归 ， 不 能 
很 好 地 纳入 新 的 信息 。 


最 后 的 问题 ， 也 是 机 器 学 习 中 最 头疼 的 问题 之 一 : 你 需要 根据 反馈 不 断 地 调整 模型 ， 直 到 
模型 达到 满意 的 预测 效果 。 模 型 调整 的 范围 十 分 宽泛 ， 找 到 一 个 最 佳 模型 无 异 于 大 海 捞 
针 。 比 如 说 ， 你 需要 决定 是 否 考虑 特征 变量 间 的 交互 性 ， 是 否 就 “类 别 失 衡 ” 问 题 给 予 相 
应 的 调整 ， 如 果 使 用 的 是 集成 模型 ， 你 还 需要 确定 一 个 合适 的 抽样 框架 。 


















































另外 一 个 棘手 的 问题 是 用 户 的 刻意 对 抗 行为 。 在 电子 商务 中 ， 一 个 恶意 的 用 户 会 想方设法 
规避 风险 系统 的 欺诈 侦 测 。 一 种 典型 的 做 法 是 ， 用 户 会 注册 十 多 个 账户 ， 每 个 账户 所 用 的 
注册 地 址 都 有 细微 的 差别 ， 如 果 侦 测 系统 主要 在 用 户 的 注册 地 址 上 做 文章 ， 那 么 这 样 的 做 
法 对 于 逃避 侦 测 系统 的 检测 会 十 分 有 效 。 对 于 风险 管理 系统 的 设计 者 来 说 ， 要 严 加 防范 用 
户 的 对 抗 行为 。 并 且 ， 由 于 这 样 对 抗 用 户 一 直 在 学 习 如 何 规避 系统 的 检测 ， 因 此 系统 的 设 
计 和 管理 人 员 也 要 不 停 地 更 新 系统 的 核心 模型 。 
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关于 变量 的 标签 值 


在 加 州 大 学 伯克利 分 校 信息 学 院 举办 的 一 年 一 度 的 DataEDGE 会 议 上 ，Micheal Chui 
(任职 于 麦肯锡 ) 与 Itamar Rosenn (Facebook 聘请 的 第 一 位 数据 科学 家 ) 讨论 了 如 何 
更 好 地 定义 “重度 用 户 ”。 这 其 实 直 接 涉及 标签 的 定义 问题 。 判 断 一 个 用 户 是 否 是 “ 重 
度 用 户 ” 对 于 企业 来 说 十 分 重要 。 但 是 什么 样 的 用 户 可 以 定义 为 “重度 ” 却 没有 统一 
的 标准 。 事 实 上 也 不 需要 统一 的 标准 ， 因 为 不 同 的 公司 在 不 同 的 数据 问题 上 ， 对 “ 重 
度 ” 的 定义 可 以 不 尽 相 同 。 但 大 体 上 ,“ 重 度 用 户 ” 具 有 一 些 共 有 的 行为 特征 ， 璧 如 
他 们 访问 服务 的 频率 和 次 数 很 高 ， 他 们 创建 和 更 新 日 志 的 次 数 较 多 等 。 从 某 种 意义 
上 来 说 ， 这 是 一 个 半 监 督学 习 问 题 ， 因 为 标签 值 的 定义 和 预测 过 程 是 在 同时 进行 的 。 











9.5.4 建 模 小 贴 士 


下 





而 是 一 些 有 关 如 何 更 好 地 打造 模型 产品 的 贴 士 。 











模型 不 同 于 黑匣子 
模型 产品 最 好 具有 高 度 的 可 解释 性 ， 我 们 不 能 假设 使 用 的 模型 是 万 能 的 ， 因 此 当 模 型 
对 数据 失效 的 时 候 ， 我 们 可 以 打开 模型 ， 看 看 里 面 到 底 发 生 了 什么 ， 以 便 更 好 地 改进 


模型 。 








勇于 尝试 

数 模 型 和 做 科学 实验 是 类 似 的 ， 你 需要 不 停 地 尝试 ， 模 型 不 会 一 中 而 就 ， 也 不 会 一 劳 永 
人 逸 。 当 你 觉得 模型 4 和 模型 B 都 合理 的 时 候 ， 应 该 这 无 犹 光 地 把 两 个 模型 都 尝试 一 遍 。 
当然 ， 模 型 的 尝试 也 有 一 个 上 限 ， 你 不 能 总 是 处 在 尝试 阶段 ， 产 品 总 是 要 拿 出 来 的 。 











模型 和 软件 包 不 是 万 能 鲜 
你 也 许 经 常会 听 到 人 们 讨论 “你 用 的 是 哪个 模型 ”“ 你 用 哪个 软件 包 ” 等 ， 这 样 的 人 往 
往 不 知道 他 们 在 做 什么 。 真 正 懂 模 型 的 人 应 该 关注 模型 内 部 的 细节 ， 而 不 是 模型 本 身 ， 
或 者 是 使 用 什么 样 的 工具 。 




















Ian 同样 也 注意 到 ， 人 们 就 某 种 算法 经 常会 讨论 使 用 哪个 软件 包 的 问题 。 比 如 ， 如 果 一 群 
人 都 在 用 R 做 机 器 学 习 ， 他 们 可 能 在 讨论 randomForest, gbm, glmnet, caret, ggplot2, 
rocr 等 软件 包 。 如 果 是 一 群 用 scikit-learn (Python 的 机 器 学 习 模 块 ) 的 人 ， 他 们 或 许 
会 讨论 RandomForestClassifier 或 者 RidgeClassifier 等 。 但 是 ,这 样 的 讨论 其 实 没 有 必要 ， 
软件 包 毕 竟 只 是 工具 ， 真 正 重要 的 是 模型 背后 的 理论 。 

程序 的 可 用 性 与 可 读 性 

对 于 数据 科学 家 来 说 ， 编 程 是 一 项 必 备 技能 。 对 于 写 程序 ，Ian 鼓励 大 家 要 注重 程序 的 正 
确 性 、 结 构 性 、 可 用 性 和 可 读 性 。 











如 有 果 你 不 使 用 别人 编写 好 的 软件 包 ， 而 是 自己 写 算法 ， 那 么 代码 的 可 读 性 和 可 扩展 性 会 直 
影响 之 后 的 产品 质量 。 举 个 例子 ， 在 编写 一 个 随机 森林 算法 时 ， 如 果 硬 编码 随机 森林 两 
大 参数 之 中 的 任何 一 个 ， 都 会 导致 程序 的 后 期 扩展 相当 困难 。 如 果 有 可 能 ， 参 数 要 用 软 编 
码 ， 这 样 不 仅 用 户 可 以 改变 它 的 取 值 ， 后 期 的 扩展 和 接口 也 会 相对 轻松 很 多 。 另 外 ， 不 管 
你 有 多 忙 ， 时 间 有 多 赶 ， 一 定 要 写 好 测试 程序 。 


在 Square， 为 了 保证 程序 的 可 用 性 和 可 读 性 ， 编 程 人 员 根 据 机 器 学 习 模 型 的 特征 将 程序 按 
照 语义 划分 为 不 同 的 构件 并 存放 在 不 同 的 文件 夹 中 。 大 体 包括 以 下 5 个 构件 。 



































。 模型 
核心 算法 部 分 


。 信和 号 
数据 读 取 和 变量 生成 


。 误差 


模型 效果 评估 


。 实验 
一 些 探索 性 数据 分 析 和 实验 等 


。 测试 
所 有 的 测试 用 代码 


当 项 目 上 线 之 后 ， 编 程 工作 基本 会 集中 在 “实验 ”文件 夹 内 。 大 量 的 新 数据 会 带 来 新 的 挑 
战 ， 模 型 需要 不 断 地 改进 ， 因 此 分 析 人 员 要 不 断 地 实验 ， 做 探索 性 分 析 ， 找 到 模型 新 的 改 
进 点 。 这 样 做 不 仅 能 促使 探索 性 分 析 带 给 分 析 人 员 新 思维 和 新 视角 ， 也 能 尽量 避免 重复 性 
劳动 。 对 于 团队 来 说 ， 你 可 以 看 到 同事 都 尝试 了 哪些 分 析 ， 得 到 了 哪些 结论 ， 这 样 在 自己 
探索 时 ， 就 可 以 “站 在 同事 的 肩膀 上 ”了 。Ian 直言 不 讳 地 说 道 ， 在 团队 中 工作 ， 就 是 要 
写生 产 型 的 代码 (production code)。 


















































项 目 应 该 包含 哪些 构件 和 文件 夹 并 没有 成 文 规定 ，John Myles White 对 此 有 过 讨论 ， 可 见 
这 个 Project Template 项 目 (http://projecttemplate.net/)。 如 果 你 是 R JH P^, Ian 建议 多 去 
Github 上 看 一 看 大 牛 的 RR 项 目的 代码 。 如 果 有 可 能 ， 你 也 可 以 尝试 写 一 些 软件 包 。Hadley 
Wickham 的 devtools (http://adv-r.had.co.nz/) 包 是 广大 R 包 开 发 者 的 福音 。Ian 说 ， 要 想 写 
出 漂亮 的 代码 ， 与 写 出 漂亮 的 公式 证 明 十 分 相似 : 你 需要 大 量 认 真 的 练习 ， 从 失败 和 用 户 
的 反馈 中 不 断 学 习 和 改进 。 








作为 课 后 练习 ，Ian 建议 大 家 比较 一 下 R 中 的 caret 包 (http://cran.r-project.org/web/packages/ 
caret/index.html) 和 Python 中 的 scikit-learn 模块 (https://github.com/scikit-learn/scikit-learn)， 
看 一 看 谁 的 源 代码 具有 更 好 的 扩展 性 和 可 读 性 ”为 什么 ? 
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找到 小 伙伴 
编程 是 一 门 艺 术 ,， 但 也 讲求 团队 协作 。 财 门 造 车 往往 事倍功半 。 就 好 比 你 学 一 门 外 语 而 没 
有 人 跟 你 交流 一 样 ， 你 永远 也 无 法 掌握 这 门 语言 的 精髓 。 

















在 写 程序 的 时 候 找到 一 个 志同道合 的 小 伙伴 很 重要 ， 因 为 互相 可 以 检查 代码 、 发 现 问题 并 
及 时 交流 和 改正 。 在 Square， 每 一 位 工程 师 都 有 义务 检查 其 他 工程 师 写 的 代码 。 这 不 仅仅 
是 为 了 改正 代码 中 可 能 存在 的 错误 ， 同 时 也 保证 了 代码 的 质量 ， 这 包括 代码 的 可 用 性 和 可 


读 性 等 。 








当 你 找到 自己 的 编程 小 伙伴 之 后 ， 还 要 找到 一 个 你 们 共同 感 兴趣 的 问题 ， 这 样 才能 一 起 编 
程 。 买 一 套 工 作 站 并 配 上 两 套 鼠 标 和 键盘 ， 接 下 来 就 可 以 一 起 协作 了 。 你 们 会 互相 讨论 如 
何 解决 面临 的 问题 ， 将 问题 解析 成 块 并 一 一 攻破 。 这 就 好 比 汽车 比赛 ， 一 个 做 驾驶 员 一 个 
做 副 驾 驶 。 驾 驶 员 是 真正 操控 车 辆 的 人 ， 也 就 是 真正 写 代 码 的 那个 人 ， 而 副 驾 驶 则 负责 检 
查 代码 并 指示 未 来 前 进 的 方向 。 当 罗 驶 员 在 写 代码 的 时 候 ， 副 驾驶 应 该 不 断 地 问 自己 “我 
能 否 看 懂 他 写 的 这 段 代码 ”， 或 者 “这 段 代码 能 够 写 得 更 简洁 一 些 吗 ”等 类 似 的 问题 。 当 
副 罗 驶 犯 糊涂 的 时 候 ， 应 该 及 时 与 轨 驶 员 沟通 以 消除 疑惑 。 找 到 小 伙伴 的 目的 就 是 为 了 相 
互 监督 和 学 习 ， 在 学 习 中 成 长 。 






































当然 ， 驾 驶 员 和 副 驾 驶 应 该 定期 交换 角色 。 如 果 你 们 合作 得 很 默契 ， 你 会 发 现 一 切 都 变 得 
十 分 高 效 。 但 是 协作 其 实 是 一 件 费 神 费力 的 工作 ， 刚 开始 人 会 很 容易 疲 备 。 但 是 随 着 默契 
度 的 增加 和 协作 模式 的 完善 ， 连 续 工 作 的 时 间 会 越 来 越 长 。 


如 果 身 边 没有 这 样 的 小 伙伴 ， 你 还 可 以 使 用 git, AZ git 的 工作 流程 ， 在 拉 搜 请 求 (pull 
request) 时 要 有 建设 性 的 意见 和 贡献 。 这 和 学 术 界 的 “同行 评审 ”是 一 个 道理 。 
将 机 器 学 习 模 型 产品 化 

机 器 学 习 模型 产品 化 的 过 程 中 有 很 多 非常 环 手 的 问题 ， 如 下 。 

















(1) 到 底 如 何 将 一 个 模型 “产品 化 ”? 

(2) 如 何 实时 地 将 实际 数据 转换 成 “特征 变量 "， 并 传递 给 模型 ? 

(3) 如 何 遵守 “所 见 即 所 得 ”的 原则 ? 也 就 是 说 ， 如 何 最 小 化 产品 在 线 上 和 线 下 的 表现 
差距 ? 


在 课堂 上 以 及 大 多 数 机 器 学 习 竞赛 中 ， 模 型 的 评估 数据 是 静态 的 ， 对 于 模型 的 运行 速度 及 
模型 运行 的 实时 性 没有 要 求 。 因 此 ， 人 们 总 是 倾向 于 使 用 复杂 的 模型 ， 因 为 能 够 得 到 更 好 
的 预测 效果 。 这 导致 大 多 数 模型 都 非常 肛 有 种 ， 使 用 的 特征 变量 都 极 尽 复杂 。 很 多 数据 科学 
家 往往 对 此 不 以 为 意 ， 因 为 他 们 认为 似乎 几 事 都 有 解决 办 法 ， 如 下 。 

。 数据 的 维度 太 高 ? 没关系 ! 用 奇异 值 分 解 就 完事 了 。 

。 数据 是 有 关 到 达 率 的 ? 没关系 ， 让 我 们 先 对 历史 数据 拟 合 一 个 泊 松 模型 即 可 。 

。 时 间 序 列 数据 ? 用 传 里 叶 变换 吧 ! 
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然而 ， 由 于 存在 种 种 时 间或 者 空间 上 的 限制 ， 我 们 在 建 模 的 时 候 并 不 能 随心 所 欲 。 从 产品 
的 角度 来 说 ， 模 型 需 在 瞬间 做 出 反应 并 给 出 预测 值 。 因 此 ， 要 尽量 避免 模型 被 不 必要 地 复 


杂 化 。 


很 多 模型 从 理论 上 来 看 ， 其 核心 部 分 无 非 是 特征 变量 之 间 的 点 积 〈 比 如 广义 线性 模型 和 支 
持 向 量 机 模型 等 )， 或 者 是 一 系列 有 关 特 征 变量 的 if-else 关系 语句 (决策 树 模 型 )。 因 此 ， 
模型 中 最 耗费 时 间 的 部 分 往往 是 特征 变量 的 种 种 计算 。 计 算 方式 有 两 种 方式 : 批量 式 和 实 
时 式 。 


由 于 模型 的 特征 变量 规模 、 复 杂 程 度 以 及 时 延 要 求 的 不 同 ， 特 征 变 量 的 计算 方式 也 有 所 不 
同 : 可 以 采取 纯粹 的 批量 式 或 者 实时 式 ， 也 可 以 两 种 方式 结合 。 具 体 采用 何 种 方式 ， 要 具 
体 问 题 具体 处 理 。 需 要 实时 预测 的 情况 ， 最 好 在 模型 的 训练 阶段 采取 批量 式 的 计算 方式 ， 
在 预测 阶段 则 采取 实时 式 的 计算 。 























MapReduce 是 一 种 常用 的 批量 式 计算 框架 。 但 由 于 Square 奇 刻 的 时 延 要 求 ，Ian 和 他 的 机 
器 学 习 团 队 在 尝试 开发 一 个 实时 的 特征 变量 计算 系统 。 


该 系统 的 设计 要 保证 历史 特征 变量 和 在 线 特 征 的 计算 方式 绝对 一 致 。 换 句 话说 ， 不 论 变 量 
来 自 于 训练 阶段 还 是 实时 数据 ， 都 应 使 用 相同 的 计算 方式 。 只 有 这 样 ， 建 模 者 才能 确信 模 
型 可 以 正常 工作 。 


9.6 ”数据 可 视 化 在 Square 


Ian 接 下 来 列举 了 Square 的 风险 管理 团队 应 用 数据 可 视 化 完成 的 一 些 任务 : 























。 使 交易 的 审核 更 加 有 效 ; 
t 更 好 地 展示 单个 客户 的 行为 模式 以 及 客户 间 的 行为 模式 ， 
。 监测 商业 运作 的 健康 度 ; 

。 产品 环境 分 析 。 


他 们 开发 了 一 个 检视 用 户 行为 的 工作 流程 系统 ， 该 系统 实时 地 展示 用 户 的 特征 ， 包 括 用 户 
的 历史 交易 行为 、 地 理 位 置信 息 、 用 户 评价 、 联 系 方式 等 。 该 流程 系统 在 很 大 程度 上 依赖 
于 数据 可 视 化 技术 。 营 运 团队 每 天 要 处 理 大 量 的 用 户 交 易 检视 任务 ， 如 果 没 有 软件 工程 师 
和 数据 科学 家 提供 类 似 工作 流程 系统 的 帮助 ， 他 们 每 天 加 班 到 凌晨 也 无 法 完成 任务 。 有 了 
这 样 的 可 视 化 流程 系统 ， 营 运 团队 的 工作 会 变 得 十 分 轻松 ， 可 疑 的 交易 行为 和 用 户 的 侦 测 
会 变 得 更 加 容易 。Ian 觉得 ， 机 器 学 习 和 数据 可 视 化 的 有 效 结合 ， 能 够 碰 樟 出 很 多 思维 和 
技术 的 火花 ， 这 是 一 个 数据 公司 所 求 之 不 得 的 。 


Square 的 办 公 室 里 安装 了 很 多 电视 机 ， 上 面 显示 着 公司 数 以 千 万 计 的 客户 们 的 实时 状态 。 
大 家 亲切 地 称呼 这 些 电视 机 为 “信息 发 射 机 ”。 这 种 可 视 化 与 欺诈 侦 测 并 没有 直接 的 关系 ， 
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却 能 够 把 公司 运行 的 实时 趋势 和 状态 展现 给 员工 ， 这 可 以 极 大 地 激发 大 家 的 工作 热情 。 


这 样 的 可 视 化 与 “产品 环境 分 析 ” 的 概念 很 像 ， 它 直观 地 提供 了 与 产品 间接 相关 的 因素 的 
运行 状态 ， 这 对 开发 产品 本 身 是 大 有 神 益 的 。 它 有 助 于 我 们 对 于 产品 直接 相关 的 数据 的 认 
识 更 加 透彻 和 全 方位 。 有 些 产品 环境 甚至 可 以 重点 可 视 化 ，Square 的 风险 管理 团队 就 针对 
很 多 产品 环境 因素 开发 了 单独 的 可 视 化 界面 。 


Ian 的 团队 甚至 可 视 化 了 一 批 风险 管理 指标 ， 其 中 包括 可 疑 交 易 每 天 的 “清理 率 ” 和 “并 
结 率 "、 每 天 处 理 的 可 疑 交易 数 等 。 整 个 指标 可 视 化 系统 看 起 来 十 分 高 端 ，Ian 甚至 可 以 直 
接 看 出 哪些 分 析 人 员 处 理 得 可 疑案 例 最 多 、 平 均 每 个 账户 的 处 理 时 间 是 多 少 、 哪 些 因 素 会 
增加 核查 的 负担 等 。 

总 而 言 之 ，Square 是 可 视 化 技术 的 忠实 拥 古 ， 用 户 的 大 部 分 行为 都 被 纳入 到 了 可 视 化 管理 
系统 当中 。 可 视 化 分 析 癸 然 成 为 了 Square 公司 “产品 环境 分 析 ” 的 重要 一 环 ， 发 挥 着 重要 
的 作用 。 尤 其 对 于 Ian 的 风险 管理 团队 来 说 ， 他 们 尤其 相信 ,，“ 看 得 清 才 能 行 得 远 "。 





















































Ian 最 后 讲 到 了 自己 的 数据 科学 背景 以 及 从 事 这 个 行业 的 一 些 建议 。 首 先 ， 他 形象 地 说 ， 
如 果 要 画 出 自己 的 技能 水 平 与 数据 科学 背景 的 关系 图 可 以 用 R 国 数 plot(skill level ~ 
attributes | ian)， 那 么 技能 水 平 应 该 取 对 数 。 这 是 因为 学 习 一 项 技能 通常 并 不 需要 太 久 
的 时 间 ， 但 是 要 精通 该 项 技能 却 需 要 长 时 间 坚 持 不 懈 地 练习 。 他 同样 认为 生产 力 的 测度 同 
样 应 该 取 对 数 ， 对 于 那些 引领 同行 的 软件 开发 者 们 来 说 ， 它 们 开发 一 个 软件 包 的 速度 要 远 
远 快 于 其 他 开发 者 。 

作为 临别 赠言 ，Ian 鼓励 大 家 

。 要 玩 就 玩 真实 的 数据 ， 

。 在 学 校 里 好 好 地 学 数学 、 统 计 学 和 计算 机 ， 

。 多 去 公司 实习 ， 

。 保持 一 颗 好 奇 的 心 。 


9.7 lan 的 思维 实验 
假设 现实 生活 发 生 的 每 条 交易 的 数据 都 可 以 被 记录 和 保存 下 来 ， 你 应 该 怎么 使 用 这 样 的 
数据 ? 


9.8 关于 数据 可 视 化 


并 不 是 每 个 人 都 能 做 出 类 似 Mark. 所 展示 的 那些 可 视 化 项 目 ， 但 是 掌握 一 些 可 视 化 技术 对 
提高 我 们 的 数据 分 析 技 术 以 及 交流 能 力 会 有 如 虎 添 经 的 作用 。 同 数据 科学 一 样 ， 数 据 可 视 
化 本 身 也 是 一 样 综合 性 的 技术 ， 要 想 真正 掌握 并 成 为 大 师 绝 非 易 事 。 为 了 方便 大 学 进一步 
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学 习 可 视 化 技术 ， 下 面 列 出 一 些 我 们 认为 比较 经 典 的 书籍 或 者 资料 。 





关于 数据 可 视 化 的 一 些 基 石 性 的 技术 ，Micheal Dubokov 的 介绍 很 不 错 ， 可 参考 http:/ 
www.targetprocess.com/articles/visual-encoding.html., 

Nathan Yau 是 Mark Hanse 在 UCLA 的 博士 研究 生 。 他 在 http://flowingdata.com/ A XX T 
很 多 关于 R 中 可 视 化 技术 的 博客 和 文章 。Nathan 也 写 过 两 本 有 关 数 据 可 视 化 的 书 : 第 
一 本 叫 作 Visulize This: The F. lowing Data Guide to Design, Visualization, and Statistics , 由 
Wiley 出 版 社 出 版 ， 另 一 本 叫 作 Data Points: Visualization That Means Something， 同 样 由 
Wiley 出 版 。 

Scott Murray 写 过 一 系列 关于 d3 的 教程 ， 链 接地 址 为 : http://alignedleft.com/tutorials/d3/。 
由 O'Reilly 出 版 的 Interactive Data Visualization 就 是 基于 这 套 教程 。 

ggplot2 的 作者 Hadley Wickham (ggplot2 是 R 中 基于 Wilkinson 的 作 图 语法 的 作 图 系统 ) 
的 书 ggplot2: Elegant Graphics for Data Analysis (Springer 出 版 社 的 Use R! 丛书 系列 
Z= 

数据 可 视 化 的 经 典 教 材 还 包括 Edward Rufte (统计 学 家 ， 被 认为 是 数据 可 视 化 之 父 ， 
Mark Hansen 和 他 是 不 同年 代 的 人 ) 的 The Visual Display of Quantitative Information, i 
BB 的 重点 在 于 可 视 化 原则 和 可 用 工具 。 第 1 章 我 们 提 到 的 William Cleveland 有 两 本 关于 
可 视 化 的 著作 :Elements of Graphing Data(Hobart Press 出 版 社 ) 和 Visualizing Data (Hobart 
Press 出 版 )。 

O'Reilly 出 版 社 的 一 些 新 书 也 非常 不 错 ， 比 如 R Graphics Cookbook, Beautiful Data 和 
Beautiful Visualization, 

我 们 认为 数据 可 视 化 不 能 只 局 限于 对 工具 和 统计 学 的 学 习 。 许 多 艺术 院 校 都 会 出 版 关于 
设计 的 理论 书籍 ， 其 他 有 关于 新 闻 学 原则 和 心理 学 的 内 容 也 与 可 视 化 密 不 可 分 ， 了 解 这 
些 知识 对 于 设计 更 好 的 可 视 化 产品 都 很 有 好 处 。 

Jeff Heer 是 斯 坦 福 大 学 的 教授 ，d3 的 作者 之 一 ( 另 一 位 作者 是 Micheal Bostock， 他 
之 前 任职 于 Square 公司 ， 后 来 跳槽 去 了 《纽约 时 报 》) 。 他 十 分 推介 BretVictor 的 讲座 
“Describing Dynamic Visualizations” (动态 可 视 化 简介 )。Jeff 说 Bret 为 大 家 展示 了 数据 
可 视 化 一 个 狐 新 的 视角 。 

如 果 有 可 能 ， 你 要 与 艺术 家 或 者 平面 设计 师 合 作 。 


















































数据 可 视 化 练习 作业 

选修 这 门 课 的 学 生 与 正在 读 这 本 书 的 你 一 样 ， 知 识 背 景 差 异 很 大 。 如 果 你 觉得 自己 是 可 视 
化 方面 的 新 手 ，Rachel 建议 你 一 定 要 看 一 看 Nathan Yau 的 博客 网 站 ， 从 中 选取 一 两 个 可 视 
化 题目 自己 动手 做 一 做 。 在 动手 的 同时 ， 要 勤 思 芳 ， 也 许 你 的 一 些 想 法 会 在 革 些 方面 改善 
Nathan Yau 的 可 视 化 结果 。 





























对 于 课程 中 其 他 具备 可 视 化 背景 的 学 生 ， 我 们 建议 他 们 参加 Hubway 的 数据 可 视 化 竞赛 
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(http://hubwaydatachallenge.org/)。Hubway 是 波士顿 市 的 自行 车 共享 项 目 。 为 了 更 好 地 
宣传 这 个 项 目 ， 主 办 者 主动 公开 了 项 目的 数据 集 ， 并 组 织 了 这 样 一 场 可 视 化 的 竞赛 。 虽 
然 竞 赛 已 经 结束 ， 但 是 数据 还 是 公开 的 。 如 此 有 意思 的 数据 ， 是 练习 可 视 化 的 大 好 机 会 。 
Rachel 班级 里 的 两 位 学 生 ，Eurry Kim 与 Kaz Sakamoton 赢得 了 该 项 赛事 的 “最 佳 叙 事 性 
JE" (best data narrarive) Rachel 非常 引 以 为 豪 。 图 9-17 就 是 他 们 的 竞赛 作品 ， 他 们 利用 
可 视 化 技术 ， 用 一 种 浪漫 温暖 的 方式 讲述 了 一 个 关于 自行 车 共享 的 故事 。 
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& 9-17; Eurry Kim 和 Kaz Sakamoto 参加 Hubway 公共 自行 车 项 目 可 视 化 竞赛 的 最 终 作 品 ， 以 及 
这 个 项 目 在 波士顿 中 心 区 实施 的 情况 〈 另 见 彩 插图 9-17) 
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第 10 章 


社交 网 络 与 数据 新 闻 学 





本 章 要 讨论 的 是 过 去 5 到 10 年 间 学 术 界 和 工业 界 讨 论 的 两 大 热门 主题 : 社交 网 络 分 析 和 
数据 新 闻 学 。 社 交 网 络 本 身 不 是 一 个 新 的 概念 (这 里 的 社交 网 络 并 不 只 局 限于 在 线 社交 网 
络 )， 对 它 的 研究 早 在 10 年 前 就 已 经 风 生 水 起 了 。 它 既是 社会 学 的 一 大 研究 对 象 ， 也 吸引 
了 计算 科学 家 、 数 学 家 和 统计 学 家 的 眼球 。 统 计 学 中 的 图 论 就 与 社交 网 络 的 研究 密 不 可 分 。 
随 着 在 线 类 社交 网 络 服 务 的 迅猛 发 展 ， 如 Facebook、LinkedIn、Twitter 和 Google+ 等 ， 社 
交 网 络 研究 的 可 用 数据 如 潮水 般 涌 来 ， 为 社会 科学 的 定量 研究 提供 了 全 新 的 研究 材料 。 


Morningside Analytics 是 一 家 专注 于 社交 网 络 数据 研究 的 公司 ， 我 们 首先 会 听 一 听 来 自 他 
们 的 声音 ， 并 且 简 要 回顾 一 下 有 关 社 交 网 络 的 基本 理论 知识 。 社 交 网 络 数据 中 蕴含 着 丰富 
的 故事 资源 ， 这 是 另外 一 种 形式 的 新 闻 : 数据 新 闻 。 我 们 之 前 说 过 ， 数 据 科 学 家 的 背景 理 
论 知识 构成 就 像 人 的 基因 组 一 样 ， 有 很 多 成 分 : 包括 数学 、 统 计 学 、 可 视 化 、 编 程 等 。 然 
而 从 事 社交 网 络 与 数据 新 闻 学 研究 的 科学 家 所 需要 具备 的 知识 构成 与 传统 的 数据 科学 家 有 
着 细微 的 差别 。 虽 然 两 者 都 要 求 具备 发 现 问 题 ， 用 数据 解决 问题 并 与 人 交流 发 现成 果 的 能 
力 ， 但 数据 新 闻 学 家 却 具备 一 些 独 特 的 研究 视角 。 来 自 O'Reilly 的 编辑 Jon Bruner 会 与 我 
们 分 享 他 有 关 数 据 新 闻 学 的 一 些 想法 和 理念 。 





























10.1 Morning Analytics 与 社交 网 络 


此 篇 的 贡献 者 是 来 自 于 Morning Analytics 的 科学 家 John Kelly， 他 将 与 我 们 分 享有 关 社 交 
网 络 分 析 的 心得 。 


Kelly1990 年 本 科 毕 业 于 哥伦比亚 大 学 ， 之 后 在 哥伦比亚 大 学 的 新 闻 学 院 相继 获 得 了 硕士 
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和 博士 学 位 。 他 的 研究 领域 是 社交 网 络 分 析 与 政治 统计 学 。 他 还 抽空 在 斯 坦 福 大 学 选修 
了 问卷 设计 、 博 弈 论 等 课程 。 他 的 硕士 论文 是 与 Marc Smith 在 微软 一 起 完成 的 (http:// 
videolectures.net/marc_smith/) 。 论 文 的 题目 是 有 关 社 交 网 络 与 政治 讨论 的 联动 关系 的 研究 。 
在 上 大 学 之 前 ，Kelly 主要 从 事 音效 设计 方面 的 工作 。 他 曾经 在 哥伦比亚 大 学 艺术 学 院 数 
字 媒 体 部 门 做 过 三 年 的 主管 。 当 年 他 在 越南 与 妻子 度假 的 时 候 自 学 了 Perl 和 Python ， 然 后 
就 成 为 了 一 名 程序 员 。 

Kelly 觉得 ， 车 想 在 这 个 领域 做 好 自己 感 兴趣 的 事情 ， 就 必须 具备 一 些 数学 、 统 计 学 和 计 
算 科 学 方面 的 知识 。 这 就 好 比 大 厨 一 样 ， 要 想 做 好 一 桌 好 菜 ， 没 有 锅 碗 球 盆 再 好 的 厨 艺 也 
无 处 施展 。 


























Kelly 感 兴趣 的 是 人 们 为 什么 会 在 社交 网 络 上 聚集 起 来 ? 他 们 在 社交 网 络 上 都 在 做 些 什么 
事情 ， 这 些 事情 对 于 政治 和 公共 政策 的 可 能 影响 是 什么 ， 等 等 。 他 所 任职 的 公司 Morning 
Analytics 有 很 多 来 自 政治 组 织 智库 的 客户 。 这 些 客户 找到 Morning Analytics 的 目的 很 简 
单 : 了 解 有 关 社 交 网 络 与 媒体 活动 的 趋势 及 其 对 政治 活动 的 可 能 影响 。 


掉 对 这 样 的 客户 ， 良 好 的 交流 与 展示 技巧 是 十 分 关键 的 。 可 视 化 在 这 其 中 往往 起 着 至 关 重 
要 的 作用 。John 不 仅 需 要 具备 扎实 的 理论 功底 和 分 析 能 力 ， 还 需要 熟练 地 掌握 可 视 化 工 
具 ， 将 分 析 结 果 和 结论 用 直观 的 形式 展现 给 客户 。 因 为 客户 付 钱 的 原因 ， 并 不 在 于 你 的 分 
析 发 现 了 什么 问题 ， 而 是 你 的 发 现 对 他 们 的 决策 有 没有 支撑 作用 。 


案例 -属性 数据 与 社交 网 络 数据 

传统 模型 所 针对 的 数据 通常 叫 作案 例 - 属性 数据 ， 每 一 条 案例 都 对 应 菜 个 人 或 者 某 个 事 
件 ， 相 应 的 人 或 者 事件 又 由 很 多 属性 构成 。 这 样 的 模型 早 在 19 世纪 30 年 代 就 被 广泛 地 应 
用 于 市 场 调查 研究 中 了 ， 并 且 很 快 芝 延 到 市 场 研究 的 其 他 领域 ， 包 括 政 治 研究 。 


Kelly 指出 ， 案 例 - 属性 这 样 的 数据 形式 给 分 析 带 来 了 巨大 的 偏差 和 倾向 性 。 即 便 这 样 的 


数据 形式 非常 适用 于 现 有 的 数据 库 系统 ， 收 集 起 来 也 相对 容易 ， 但 却 极 大 地 束缚 了 数据 分 
析 和 研究 的 广度 和 深度 。 

































































Kelly 提 到 了 另外 两 位 来 自 欧洲 的 社交 网 络 分 析 领 域 的 开拓 者 ，Paul Lazarsfeld 和 Elihu 
Katz。 他 们 认为 社交 网 络 分 析 不 仅 要 考虑 到 个 人 ， 更 要 注重 人 与 人 之 间 关 系 的 研究 ， 这 是 
社交 网 络 的 本 质 特征 。 


社交 网 络 数 据 分 析 与 案例 -属性 数据 分 析 没 有 绝对 的 就 优 剖 和 劣 ， 然 而 有 时 候 应 用 前 者 可 能 
会 带 来 更 好 的 效果 。 比 如 说 ， 联 邦 政府 想 知道 人 们 对 于 出 兵 阿富汗 的 看 法 ， 通 常 的 办 法 是 
花 很 多 钱 做 大 规模 的 民意 调查 ， 得 到 的 数据 是 典型 的 案例 - 属性 数据 。 然 而 ，Kelly 指出 ， 
民意 不 仅仅 是 单个 个 体 意见 的 线性 组 合 ， 要 找到 整个 社交 网 络 中 有 影响 力 的 组 织 或 者 个 
人 ， 他 们 的 意见 往往 左右 着 群众 的 意见 。 这 样 的 分 析 只 能 通过 社交 网 络 分 析 来 实现 ， 传 统 
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的 案例 - 属性 数据 分 析 则 会 束 手 无 力 。 

试想 一 下 ， 如 果 现 在 让 你 回 到 1750 年 的 欧洲 ， 调 查 民意 并 判断 未 来 的 政治 走向 ， 你 会 怎 
么 做 呢 ? 如 果 你 学 过 社交 网 络 分 析 的 话 ， 你 应 该 直接 分 析 上 层 社会 的 联姻 关系 ， 而 不 是 跑 
到 大 街 上 发 问卷 。 

其 实在 很 多 情况 下 ， 人 们 习惯 于 使 用 案例 — 属性 数据 是 因为 这 样 的 数据 比较 容易 收集 、 储 
存 和 分 析 ; 即便 对 于 很 多 问题 可 能 根本 就 不 适用 。 

Kelly 想 要 告诉 大 家 的 是 ， 现 实 世界 是 一 张 复杂 的 网 络 而 不 是 一 群 独立 的 个 体 堆 砌 而 成 的 。 
社交 网 络 分 析 在 很 多 问题 上 都 要 优 于 传统 的 案例 - 属性 数据 分 析 。 


`j —— 
10.2 社交 网 络 分 析 
图 论 和 社会 关系 计量 学 对 社交 网 络 分 析 的 形成 和 发 展 起 到 了 推动 作用 。 欧 拉 用 图 论 的 方法 
巧妙 地 解决 了 Konigsberg 的 七 桥 问 题 ， 而 社会 关系 计量 学 的 出 现 则 得 益 于 20 世纪 70 年 代 
计算 机 技术 的 迅速 发 展 ， 大 型 数据 的 处 理 从 不 可 能 变 为 现实 ， 其 创始 人 为 Jacob Moreno, 





















































哥伦比亚 大 学 的 退休 教授 Harrison White 和 社会 学 家 Robert Merton 是 社交 网 络 分 析 的 鼻 
祖 。 他 们 认为 ， 对 人 类 行为 的 分 析 不 能 只 局 限于 研究 个 体 的 属性 ， 人 们 之 间 互 相 影 响 所 形 
成 的 网 络 (或 系统 ) 也 应 该 成 为 研究 的 主要 对 象 。 


然而 到 底 如 何 研究 这 个 网 络 似乎 并 不 是 一 件 很 容易 的 事 。Kelly 指出 ， 网 络 的 分 析 无 非 是 
对 微观 个 体 和 宏观 整体 的 整合 性 的 研究 ， 也 就 是 说 既 要 研究 局 部 个 体 也 要 照顾 大 局 整体 。 


在 实际 生活 中 ， 个 体 与 总 体 总 是 通过 各 种 途径 联系 起 来 。 比 如 ， 人 们 的 购买 行为 形成 一 张 
消费 网 ， 而 人 们 的 竞选 和 投票 行为 则 构成 了 一 张 政 治 网 络 。 我 们 吸 需 合适 的 工具 解析 这 一 
张 张 复杂 的 网 络 ， 这 也 就 是 社交 网 络 分 析 的 终极 使 命 。 


10.3 关于 社交 网 络 分 析 的 相关 术语 


网 络 中 的 基本 单位 称 作 参与 者 (actor) 或 者 节点 (node)， 可 以 用 来 表示 人 、 网 站 或 者 其 
他 你 能 想到 的 一 切 事物 。 这 些 节 点 通常 在 网 络 图 中 表示 为 一 个 个 实心 点 。 市 点 之 间 的 相互 
连接 的 关系 称 作 关系 连接 (relational tie) 或 者 边 (edge)。 比 如 说 在 网 络 图 中 ， 如 果 你 对 某 
人 点 了 赞 或 者 和 某 人 互 粉 ， 你 们 之 间 的 关系 就 可 以 用 一 条 边 连 接 起 来 。 被 边 连 接 的 两 个 个 
体 称 作 “ 二 分 体 ”(dyad) ， 如 果 三 个 节点 相互 连接 则 称 作 “三 分 体 ”(triad)。 比 如 说 ， 节 
点 A 与 节点 B 之 间 有 边 ， 节 点 B 和 节点 C 也 有 边 ， 则 ABC 三 个 节点 形成 “三 分 体 ” 的 必 
要 条 件 是 A 和 C 之 间 也 有 边 。 





























一 张 网 络 如 果 太 大 ， 则 有 必要 着 眼 研 究 其 中 的 子 群体 〈subgroup) ， 也 叫 作 子 网 络 ， 这 包括 
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子 群 体 中 的 所 有 节点 以 及 它们 之 间 的 边 。 子 网 络 与 母 网 络 从 形式 上 来 看 并 没有 本 质 区 别 ， 
只 是 规模 大 小 有 别 。 


如 果 两 个 节点 之 间 有 关系 ， 则 从 表现 形式 上 来 看 ， 它 们 之 间 必 有 线 相 连 。 从 网 络 连接 的 角 
度 来 说 ， 对 某 人 点 赞 与 实际 生活 中 与 菜 人 住 在 一 起 没有 形式 上 的 差别 ， 都 可 以 用 一 条 边 连 
接 起 来 。 一 个 社交 网 络 就 是 所 有 节点 与 边 的 集合 。 


一 个 社交 网 络 可 以 很 简单 也 可 以 很 复杂 。 最 简单 的 网 络 类 似 于 Facebook 上 的 好 友 网 ， 两 个 
人 之 间 要 么 是 好 友 要 么 不 是 ， 任 何 两 个 人 之 间 都 可 以 成 为 好 友 。 


稍微 复杂 一 点 的 是 二 分 图 (bipartite graph) ， 节 点 只 存在 于 两 个 不 相交 的 子 集 当中 ， 同 一 个 子 
集 的 市 点 之 间 无 边 相连 。 举 例 来 说 ， 一 个 子 集 可 以 是 人 ， 而 另外 一 个 子 集 可 以 是 公司 ， 二 分 
图 描述 的 既 不 是 人 与 人 之 间 的 关系 ， 也 不 是 公司 与 公司 之 间 的 关系 ， 而 是 人 与 公司 之 间 的 关 
系 。 如 果 某 个 人 在 某 家 公司 的 董事 会 任职 ， 则 他 们 之 间 可 以 用 边 连 接 起 来 。 这 样 的 例子 举 不 
胜 数 ， 比 如 一 个 子 集 仍然 是 人 ， 而 另外 一 个 子 集 可 能 是 人 们 感 兴趣 的 社会 活动 。 那 么 二 分 图 
所 描述 的 关系 ， 既 不 是 人 与 人 之 间 的 关系 ， 也 不 是 社会 活动 之 间 的 联系 ， 而 是 人 与 社会 活动 
之 间 的 对 应 关系 。 如 果 某 个 人 对 某 项 社会 活动 感 兴趣 ， 他 们 之 间 则 存在 一 条 边 。 


最 后 一 种 网 络 叫 作 “自我 中 心 网 络 ”(ego network), ， 顾 名 思 义 ， 就 是 围绕 一 个 节点 有 很 多 
连接 线 的 网 络 。 以 Facebook 为 例 ， 一 个 人 的 好 友 圈 就 是 以 这 个 人 为 中 心 的 自我 中 心 网 络 。 
研究 表明 ， 一 个 人 自我 中 心 网 络 的 规模 和 复杂 程度 与 他 的 社会 经 济 地 位 有 着 直接 的 联系 。 
通过 观察 他 的 自我 中 心 网 络 就 能 大 致 了 解 他 所 拥有 的 社会 地 位 。 








10.3.1 ”如何 衡量 向 心性 


给 定 一 个 社交 网 络 ， 人 们 会 问 的 第 一 个 问题 往往 是 : 谁 在 这 个 网 络 中 的 重要 性 最 大 ? 


要 回答 这 个 问题 ， 首 先 需 要 定义 何 为 重要 。 重 要 性 在 社交 网 络 中 又 叫 “ 向 心性 ”， 这 里 我 
们 简单 介绍 几 个 常用 的 向 心性 测度 指标 ， 并 给 出 相应 的 例子 。 








第 一 个 测度 叫 作 自由 度 ， 这 通常 指 的 是 在 网 络 中 有 多 少 人 与 你 有 边 相 连 。 以 Facebook 为 
例 ， 自 由 度 就 是 你 的 好 友 个 数 。 


第 二 个 测度 叫 作 “ 紧 密度 ”。 如 果 你 的 好 友 与 你 的 连接 越 紧密 ， 你 们 的 “紧密 度 ” 就 越 高 。 




















为 了 更 好 地 定义 向 心性 ， 我 们 需要 定义 连通 图 中 两 个 节点 间 的 “距离 "。 尤 其 是 对 于 两 个 
非 直接 相连 的 节点 ， 距 离 的 定义 非常 重要 。 假 设 节 点 zx RU y 之 间 的 距离 用 d(x, y) 表示 ， 最 
常见 的 距离 可 以 定义 为 节点 x 和 y 之 间 的 最 短路 径 的 长 度 。 于 是 ， 节 点 x 本 身 的 “紧密 度 ” 
可 以 定义 为 : 

C(x) T by ids 
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接 下 来 介绍 另外 一 种 向 心性 的 测度 指标 ， 叫 作 “ 中 间 性 ”(betweenness) ， 它 衡量 的 是 在 
你 的 网 络 中 ， 你 的 好 友之 间 的 紧密 程度 。 也 就 是 说 ， 他 们 之 间 的 最 短路 径 是 否 通过 你 的 节 
点 ， 如 果 通 过 ， 说 明 你 在 连接 这 两 位 好 友 过 程 中 起 到 了 直接 的 作用 。 如 果 你 的 中 间 性 指标 
很 高 ， 则 代表 你 对 好 友 的 影响 很 大 ， 起 到 了 信息 中 转 站 的 作用 。 





























为 了 精确 地 定义 中 间 性 的 概念 ， 我 们 假设 节点 x 和 节点 y 之 间 的 最 短路 径 数 为 mw， 最 短路 
径 中 通过 节点 Y 的 路 径 数 为 wu)， 那 么 节点 "的 “中 间 性 ”定义 为 : 


加 Ox, (Y) 
Bex 
上 式 的 和 取 自 所 有 与 v 不 同 的 节点 (x, y) 组 合 。 最 后 一 种 向 心性 测度 指标 叫 作 “特征 值 
HOE”, RIZE 10.6.1 市 详细 介绍 。 直 观 的 解释 就 是 ， 如 果 你 与 更 多 的 名 人 们 有 联系 ， 
那么 你 的 特征 值 向 心 度 要 高 于 常人 。 谷 歌 的 PageRank 理论 就 是 这 种 向 心性 测度 的 一 个 很 
好 的 应 用 。 


10.3.2 ”使 用 哪 种 向 心性 测度 

介绍 了 这 么 多 的 测度 指标 ， 对 于 到 底 该 使 用 哪个 指标 则 是 一 个 头疼 的 问题 。 总 有 一 些 自 称 
是 “权威 人 十 ”或 者 “专家 ”的 人 说 应 该 使 用 某 茶 指标 ， 然 而 事实 上 根本 没有 统一 的 标 
准 。 不 同 的 问题 ， 不 同 的 网 络 类 型 ， 应 该 使 用 的 指标 都 不 尽 相 同 。 


举 个 例子 来 说 ， 设 想 我 们 要 在 穆斯林 兄弟 会 成 员 的 博客 中 找到 一 个 有 影响 力 的 博客 。 一 个 
可 能 的 做 法 是 ， 先 列 出 网 络 上 最 有 影响 力 的 前 100 个 博客 ， 以 自 上 而 下 的 顺序 找到 其 中 与 
穆斯林 兄弟 会 有 关 的 博客 。 这 样 的 做 法 其 实 完全 跟 我 们 想 要 解决 的 问题 没有 关系 。 你 可 能 
找到 的 是 一 个 与 穆斯林 兄弟 会 毫 无 关系 的 人 ， 他 只 是 偶尔 写 了 一 篇 与 穆斯林 兄弟 会 有 关 的 
博客 而 已 。 这 个 例子 告诉 我 们 ， 如 果 我 们 关注 的 对 象 只 是 一 小 群 人 ， 那 么 我 们 自然 要 把 视 
野 转 到 这 一 小 群 人 所 形成 的 子 网 络 中 ， 而 不 是 在 茫 范 大 网 中 寻找 。 


另外 需要 提示 大 家 的 是 ， 根 据 问题 的 不 同 ， 测 度 指标 的 选取 也 会 有 所 差异 。 比 如 说 在 找 博 
客 的 时 候 我 们 使 用 的 测度 指标 ， 如 果 放 在 Twitter 的 数据 上 就 可 能 完全 不 适用 。 
































一 个 值得 注意 的 问题 是 ， 一 些 不 良 用 户 如 果 知 道 了 系统 使 用 的 是 何 种 测度 指标 ， 他 们 会 想 
方 设法 提高 自己 的 知名 度 。 做 法 很 简单 ， 如 果 Twitter 的 系统 使 用 的 是 特征 值 向 心 度 ， 那 
么 不 良 用 户 可 能 会 注册 多 达 5000 个 账户 ， 每 个 账户 之 间 都 互相 关注 ， 然 后 再 策略 性 的 关 
注 某 一 个 特定 账户 ， 这 个 特定 账户 的 知名 度 就 可 能 会 大 大 增加 。 这 样 的 情况 肯定 是 Twitter 
所 不 愿意 并 想 极 力 避 免 的 。 





如 果 你 用 Python， 那 么 NeworkX (http://networkx.github.io/) 或 者 igraph (http://igraph. 
sourceforge.neV) 可 以 用 来 计算 这 些 测度 指标 ， 在 R 中 可 以 使 用 statnet 包 (http://statnet. 
org/) 。 如 果 你 喜欢 用 Excel， 可 以 选择 NodeXL (http://research.microsoft.com/en-us/projects/ 
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nodexl/) 。 另 外 我 们 注意 到 ， 斯 坦 福 大 学 的 Jure Leskovev 正在 研发 一 个 基于 C 语言 的 网 络 
分 析 包 ， 感 兴趣 的 读者 可 以 关注 一 下 (http://stanford.io/18Pejdt)。 


10.4 ”思维 实验 


假设 你 是 来 自 华 盛 顿 某 智库 的 研究 人 员 ， 手 头 有 1000 万 美元 的 预算 。 你 的 任务 是 预测 埃 
及 这 个 国家 未 来 的 政治 走向 : 包括 哪个 政党 可 能 执政 ,埃及 在 5 年 、10 年 以 及 20 年 之 后 
会 变 成 一 个 什么 样 的 国家 。 你 所 拥有 的 数据 十 分 广泛 ， 包 括 埃及 公民 的 教育 信息 、 通 话 和 
短信 记录 、 家 庭 住址 、 所 有 政治 组 织 和 公司 的 网 络 使 用 情况 ， 以 及 所 有 公民 的 Facebook 和 
Twitter 账户 信息 等 。 

















在 你 觉得 如 何 使 用 这 些 数据 之 前 ， 你 还 应 该 注意 这 些 信息 并 不 是 一 成 不 变 的 。 随 着 时 间 的 
推移 ， 有 人 会 注销 Facebook， 政 治 组 织 可 能 会 转 为 地 下 党 〈 意 味 着 他 们 的 信息 会 很 难 获 
取 ) 等 。 即 便 大 多 数 都 有 Facebook 账户 ， 但 还 是 有 少 部 分 人 从 来 不 使 用 它 ， 这 一 少 部 分 很 
可 能 是 你 最 感 兴趣 的 那 部 分 人 。 从 这 个 角度 来 说， 通话 和 短信 记录 数据 可 能 更 加 有 用 。 





你 可 能 觉得 我 们 假设 的 情况 很 不 现实 ， 野 心太 大 。 其 实 不 然 ， 德 国 当年 就 通过 出 口 西 门 子 
制造 的 宽带 设备 给 伊朗 ,成功 地 黎 控 了 伊朗 整个 国家 的 宽带 使 用 数据 。 这 样 的 例子 在 国家 
与 国家 之 间 经 常 发 生 ， 比 如 美国 就 曾经 帮助 过 巴基斯坦 ， 俄 罗斯 也 曾经 帮助 过 叙利亚 完成 
过 类 似 的 “间谍 ”工作 。 


对 于 这 样 一 个 问题 ， 我 们 需要 改变 我 们 思考 问题 的 方式 。 面 对 数据 ， 人 们 习惯 会 问 : 我 能 
从 这 个 数据 中 得 到 什么 结论 呢 ? 这 样 的 想法 会 严重 束缚 我 们 分 析 和 思考 问题 的 广度 和 深 
度 。 这 种 从 数据 出 发 的 态度 是 不 可 取 的 。 相 反 ， 我 们 应 该 问 类 似 这 样 的 问题 : 预测 一 个 国 
家 的 政治 走向 到 底 要 预测 哪些 具体 的 指标 ?我 们 需要 哪些 数据 支撑 我 们 的 分 析 ? 这 些 问题 
不 是 以 数据 为 绝对 导向 的 ， 而 是 更 有 深度 ， 也 更 能 带 给 分 析 人 员 有 意思 的 结果 。 












































总 之 ， 我 们 应 该 以 问题 为 导向 ， 而 不 是 被 数据 牵 着 鼻子 走 。 先 把 问题 设 定 好 ， 再 找 数据 并 
从 数据 中 找到 信息 。 


10.5 Morningside Analytics 


Kelly 在 课堂 上 展示 了 一 张 世 界 上 最 大 的 14 个 博客 圈 的 网 络 地 图 。 要 理解 这 些 网 络 地 图 ， 
可 以 想象 有 一 股 类 似 于 风 的 力量 将 市 点 (代表 博客 ) 往 图 的 边缘 推动 ， 而 恰好 有 一 股 反 作 
用 力 将 这 些 节 点 以 某 种 固定 形态 拉 在 了 一 起 。 这 股 反 作用 力 就 是 博客 之 间 的 连接 关系 。 图 
10-1 表示 的 就 是 其 中 的 阿拉 伯 博 客 圈 。 
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图 10-1: 阿拉 伯 博 客 圈 ( 另 见 彩 插图 10-1) 














状 结构 图 有 助 于 我 们 次 入 了 解 和 铜 悉 博 客 圈 的 情况 。 




















如 果 只 分 析 每 个 博客 圈 中 的 文章 ， 最 典型 的 方法 是 用 自然 语言 处 理 技术 (NLP) 分 析 其 中 
的 文本 ， 那 或 许 我 们 会 失去 很 多 更 有 价值 的 分 析 对 象 : 博客 和 博客 圈 的 相互 关系 。 举 例 来 








说 ， 应 用 社交 网 络 分 析 技术 ， 我 们 可 能 会 发 现 不 同 博客 圈 
技术 的 盲区 。 


这 样 的 博客 圈 可 以 想象 成 是 某 种 高 维 复杂 关系 在 二 维 平面 














图 中 每 个 点 都 代表 一 个 博客 ， 不 用 的 颜色 代表 不 同 的 国家 。 点 的 大 小 取决 于 相应 博客 的 向 
心 度 的 大 小 ， 越 大 则 代表 着 点 的 直径 越 大 。 向 心 度 大 代表 该 博客 的 连接 线 越 长 。 这 样 的 网 

















的 不 同 关注 点 ， 这 是 纯 文 本 分 析 





上 的 投影 。 它 们 到 底 有 什么 不 同 


要 取决 于 它们 原本 内 部 的 复杂 关系 。 从 形式 上 来 看 ， 我 们 似乎 可 以 随便 地 添加 颜色 、 设 定 


我 们 所 要 做 的 就 是 如 何 更 好 地 、 定 性 地 解释 这 些 网 络 。 








圆圈 的 大 小 等 。 文 本 分 析 技 术 可 以 在 这 里 帮助 我 们 确认 我 们 分 析 的 结果 是 否 是 有 意义 的 ， 








奇怪 怪 的 嗜好 密 不 可 分 ， 而 英国 呢 ? Cathy 插嘴 说 道 ， 英 








比如 说 ， 法 国 的 博客 圈 可 能 讨论 的 主题 是 美食 ， 而 德国 的 博客 圈 主 题 可 能 与 政治 和 一 些 奇 





国 的 两 大 博客 主题 应 该 是 成 人 片 
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和 同性 恋 成 人 片 。 应 用 网 络 分 析 ， 我 们 可 以 将 这 些 国家 的 博客 圈 主 题 联系 到 这 些 国 家 的 保 
守 性 与 自由 度 。 


由 于 俄罗斯 严格 的 网 络 审 查 制度 ， 他 们 的 博客 圈 看 起 来 与 其 他 国家 的 有 着 显著 的 区 别 。 



























































这 里 使 用 的 分 类 算法 是 Fruchterman-Reigngold 算法 ， 该 算法 可 以 将 一 些 有 共同 影响 的 博客 
圈 连 在 一 起 ， 其 分 类 的 结果 具有 优良 的 可 解释 性 。 10-2 就 是 英语 圈 博 客 的 分 类 图 。 





























我 们 针对 客户 关心 的 内 容 ， 建 立 有 针对 性 的 网 络 图 。 比 如 ， 妇 女 健 康 与 环 
境 。 下 图 中 ， 可 以 看 到 一 些 博 主 可 以 大 致 分 为 下 面 几 类 : 环境 保护 论 者 、 


女权 运动 者 、 政 治 圈 博 主 和 家 长 。 














图 10-2: 英语 圈 博 客 分 类 图 ( 另 见 彩 插图 10-2) 


可 视 化 与 中 观 视 角 

社会 媒体 公司 要 么 有 数据 要 么 有 技术 。 这 些 技术 基本 是 一 些 申 请 了 专利 的 情感 分 析 引 擎 或 
者 是 一 些 其 他 的 高 精 尖 技术 。 也 就 是 说 ， 我 们 完全 不 知道 这 些 技术 尼 后 的 细 市 ， 因 此 要 想 
真正 理解 你 要 分 析 的 对 象 ， 在 使 用 他 们 提供 的 技术 的 同时 ， 你 还 需要 知道 如 何 使 用 可 视 化 
技术 把 分 析 的 结果 具体 化 、 形 象 化 ， 以 转变 成 直观 的 解释 。 

例子 : 如 有 果 你 想 要 分 析 大 选 的 结果 ， 你 更 想 知道 广大 人 民 和 群众 的 看 法 。 因 此 可 以 搜索 有 关 
“妈妈 ”或 者 “体育 迷 ” 的 博客 ， 因 为 这 些 人 是 老百姓 的 可 能 性 更 大 。 如 果 你 搜索 一 些 党 
员 的 博客 ， 那 么 他 们 会 写 什么 内 容 不 看 都 可 以 猜 出 个 八 九 不 离 十 。 

Kelly 举 了 另外 一 个 关于 大 选 的 例子 。 比 如 说 马丁 路 德 金 的 “我 有 一 个 梦想 ”的 演讲 视频 
和 罗 姆 尼 的 竞选 视频 ， 在 大 选 期 间 被 博客 圈 分 享 的 模式 是 显然 不 同 的 。 前 者 会 出 现在 博客 
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圈 的 各 个 角落 ， 而 后 者 只 会 集中 出 现在 一 些 支 持 共 和 和 党 的 保守 博客 圈 内 。 


但 是 ， 如 果 从 视频 被 分 享 的 次 数 的 直方 图 来 看 ， 似 乎 后 者 的 分 享 次 数 会 更 多 。 因 此 如 有 果 不 
用 网 络 分 析 的 方法 而 只 关注 统计 量 的 话 ， 我 们 很 难 发 现 后 者 其 实 是 人 为 操作 的 结果 。 


Kelly 也 为 哈佛 大 学 的 Berkman 互联 网 与 社会 研究 中 心 工作 。 她 之 前 在 2008 年 和 2011 年 
分 析 过 伊朗 的 博客 圈 。 分 析 结 果 显 示 ，2008 年 和 2011 年 的 博客 圈 特 征 没有 显著 区 别 : 年 
轻 的 反 政府 民主 主义 者 、 诗 人 (是 伊朗 社会 的 重要 组 成 部 分 ) 和 政府 保守 派 是 博客 圈 的 主 
导 群 体 。 


然而 ， 分 析 的 结果 同样 显示 ， 在 2008 年 到 2011 年 的 三 年 间 ， 只 有 15% 的 博客 圈 没 有 改 


变 过 。 

















这 个 例子 告诉 我 们 ， 即 便 个 体 的 改变 是 巨大 的 ， 但 却 对 整体 没有 显著 影响 。 也 就 是 说 ， 像 
社交 网 络 分 析 这 样 广 重 群 体 网 络 研究 的 方式 ， 会 比 案例 - 属性 数据 那样 注重 个 体 研究 的 方 
式 带 给 研究 人 员 更 深层 次 的 洞察 力 。 


对 于 国家 和 社会 这 样 宏观 的 研究 对 象 来 说 ， 社 交 网 络 分 析 是 更 加 适用 的 方法 ， 它 带 给 我 们 
是 一 种 介 于 宏观 与 微观 的 独特 视角 ， 我 们 称 为 中 观 视角 。 


10.6 ”从 统计 学 的 角度 看 社交 网 络 分析 


从 统计 学 的 角度 来 看 可 以 将 网 络 看 作 一 个 随机 数 或 者 随机 变量 ， 是 由 某 个 随机 过 程 或 者 某 
个 概率 分 布 形成 的 。 因 此 ， 网 络 也 可 以 生成 样本 。 如 有 果 现实 生活 中 的 网 络 是 某 个 随机 过 程 
或 者 概率 分 布 的 样本 实现 ， 那 么 我 们 会 问 一 些 统计 学 中 的 典型 问题 。 比 如 说 ，Twitter 的 网 
络 有 哪些 典型 特征 ? 这 个 网 络 能 很 好 地 代表 总 体 的 特征 吗 ? 

ZE 


社交 网 络 分 析 中 的 很 多 问题 都 来 源 于 数学 、 统 计 学 、 计 算 机 科学 、 物 理学 和 社会 学 等 学 
科 。 它 的 应 用 则 不 仅仅 局 限于 这 些 学 科 ， 甚 至 可 以 运用 到 fMRI 图 像 研究 、 流 行 病 学 、 社 
交 网 络 研究 (如 Facebook 和 Google+) 研究 等 。 


10.6.1 网 络 的 表示 方法 与 特征 值 向 心 度 
网 络 节 点 间 的 连接 方式 有 两 种 : 有 向 连接 和 无 向 连接 。 例 如 在 Twitter 上 ， 如 果 我 关注 了 
你 而 你 没有 关注 我 ， 这 就 是 一 个 单 向 的 连接 ， 它 是 有 向 的 。 某 些 网 络 是 无 向 的 ， 从 Twitter 
的 角度 来 说 ， 就 是 要 么 我 们 互相 认识 ， 要 么 我 们 完全 不 认识 。 


一 个 包含 NN 个 节点 的 无 向 网 络 可 以 用 一 个 N* N 的 二 元 矩阵 表示 ， 和 矩阵 中 只 有 0 和 1 两 个 
值 。 如 果 第 (i, ATRE 1 则 代表 从 节点 i 到 节点 j 是 相连 的 。 这 样 的 矩阵 也 叫 作 相 邻 算 
阵 (adjacency matrix) mem XJX4EPME (incidence matrix)。 这 样 的 矩阵 也 可 以 用 来 定义 有 向 
网 络 ， 而 无 向 网 络 的 特别 之 处 在 于 这 样 的 矩阵 是 对 称 的 。 
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另外 一 种 表示 网 络 的 方法 是 使 用 列表 和 多 元 列表 。 比 如 说 ， 对 于 一 个 节点 i， 可 以 用 一 个 
列表 列 出 连接 i 的 所 有 的 边 ， 这 样 的 列表 也 叫 作 关 联 列表 。 这 样 做 的 好 处 是 ， 节 点 可 以 有 
多 重 属性 ， 而 且 这 样 的 表示 方式 可 以 市 省 很 多 存储 空间 。 如 果 市 点 有 多 重 属性 ， 那 么 相应 
的 表示 方法 叫 作 多 重 列表 。 比 如 说 节点 代表 人 ， 那 么 可 能 的 属性 包括 人 的 性 别 、 年 龄 、 身 
高 等 。 如 果 市 点 是 人 的 某 种 行为 、 习 惯 或 者 爱好 ， 那 么 相应 的 属性 也 会 随 着 改变 。 


连接 边 也 可 以 有 自己 的 属性 ， 比 如 可 以 被 赋予 权重 代表 该 连接 的 强度 。 这 种 情况 下 ， 网 络 
同样 可 以 表示 为 一 个 N* N 的 箱 阵 ， 只 不 过 应 该 把 0 和 1 换 成 相应 边 的 实际 权重 值 。 


















































如 果 用 相 邻 矩阵 表示 一 个 网 络 ， 那 么 就 可 以 定义 特征 值 向 心 度 (10.3.1 节 ) 了 。 假 设 相 邻 
和 矩阵 为 4， 该 算 阵 的 特征 值 为 4， 对 应 的 特征 向 量 为 x， 由 线性 代数 理论 我 们 知道 : 








Ax=/x 














1.>0, i-b-N 


通过 解 det(4 一 (D) 便 可 以 求 出 解 特征 值 和 特征 向 量 。 通 常 的 做 法 是 将 特 值 从 大 到 小 排列 ， 
并 取 其 中 最 大 的 特征 值 及 其 对 应 的 特征 向 量 。 特 征 值 代表 的 就 是 向 心 度 的 大 小 ， 而 对 应 的 
特征 向 量 则 是 向 心 度 在 各 个 连接 上 的 得 分 值 。 某 个 特征 值 4 对 应 的 特征 向 量 x 的 求法 是 解 
下 面 的 齐 次 方程 式 : 
































(4—ADx=0 
这 里 得 到 的 特征 向 量 x 就 是 我 们 想 要 的 特征 向 量 向 心 度 。 


到 目前 为 止 ， 这 些 公式 只 是 告诉 我 们 怎么 计算 得 到 特征 向 量 向 心 度 ， 却 没有 告诉 我 们 为 什 
么 是 这 样 。 上 面 的 叙述 完全 是 线性 代数 求解 特征 值 的 理论 ， 至 于 为 什么 特征 向 量 可 以 用 作 
向 心 度 的 测度 指标 以 及 相关 的 证 明和 例子 ， 可 以 参考 相关 特征 值 和 特征 向 量 的 资料 。 感 兴 
趣 的 读者 可 以 参考 这 篇 文章 : http://goo.gl/UVkLoF。 


如 果 你 不 喜欢 从 线性 代数 的 角度 计算 特征 值 ， 也 可 以 用 下 面 一 种 迭代 的 方法 得 到 具有 最 大 
特征 值 的 特征 向 量 。 在 迭代 之 前 ， 假 设 一 个 长 度 为 NN 的 向 量 ， 其 元 素 是 每 个 市 点 的 自由 
度 ， 通 常 这 些 自由 度 已 经 被 标准 化 ， 因 此 整个 向 量 的 元 素 之 和 为 1。 这 个 初始 向 量 所 包含 
的 信息 与 证 点 之 间 的 连接 程度 没有 任何 关系 。 为 了 得 到 向 心 度 ， 对 于 某 一 个 节点 ， 在 下 一 
步 迭 代 的 时 候 将 其 近邻 节点 的 自由 度 加 总 在 该 节点 上 ， 以 此 类 推 给 所 有 其 他 的 节点 。 在 一 
次 从 代 之 后 还 要 进行 一 次 标准 化 操作 以 保证 整个 向 量 的 元 素 之 和 始终 为 1。 反 复 和 迭代 ， 每 
一 次 选 代 的 近邻 规模 都 增加 一 个 节点 ， 这 样 最 后 得 到 的 向 量 就 是 近似 为 特征 值 向 心 度 的 向 
量 。 上 面 那 篇 文章 也 给 出 了 该 方法 的 理论 推导 。 













































































注 1: 这 也 称 作 特征 多 项 式 。 
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10.6.2 ”随机 网 络 的 第 一 个 例子 : Erdos-Renyi 模 型 
之 前 已 经 说 过 ， 我 们 可 以 将 网 络 看 作 由 某 个 随机 过 程 产生 的 样本 。 具 体 来 说 ， 可 以 认为 网 
络 的 连接 边 的 分 布 是 来 自 于 某 个 分 布 函 数 ， 并 假设 边 之 间 是 相互 独立 的 。 


























因此 ， 如 果 及 个 节点 ， 则 一 个 有 D = (分 ) 种 可 能 的 节点 组 合 (也 叫 作 二 分 体 ) ， 每 个 节 
点 组 合 之 间 都 有 可 能 有 一 条 连接 ， 或 者 没有 。 因 此 一 共有 2^ 种 可 能 的 网 络 。 对 于 每 一 条 
连接 边 ， 最 简单 的 情形 是 假设 每 条 边 的 存在 都 服从 一 个 参数 为 p 的 伯 努 利 分 布 ， 由 此 得 到 
的 网 络 模型 也 叫 作 Erdos-Renyi 模型 。 

















伯 努 利 网 络 


在 伯 努 利 假 设 下 ， 观 测 到 一 个 所 有 节点 都 相互 连接 的 网 络 的 概率 为 p?， 而 所 有 节点 都 
不 相互 连接 的 概率 为 (] 一 p)。 这 两 种 网 络 代 表 了 两 种 极端 ， 现 实 中 的 网 络 基本 都 介 
于 两 者 之 间 。Erdos-Renyi 模型 与 伯 努 利 网 络 是 同义词 。 从 数学 上 来 看 ， 这 样 的 模型 只 
具有 理论 研究 意义 ， 通 常 被 用 作证 明 更 加 复杂 模型 的 某 种 性 质 。 











10.6.3 ”随机 网 络 的 第 二 个 例子 : 指数 随机 网 络 图 模型 

由 于 假设 条 件 太 不 现实 ， 因 此 伯 努 利 模型 很 难 在 现实 生活 找到 可 应 用 的 例子 。 比 如 说 ， 最 
常见 的 好 友 网 络 ， 或 者 学 术 界 学 者 之 间 的 合作 网 都 具有 明显 的 传递 性 (transitivity, 4i 
是 说 ， 如 果 4 认识 B，B 认识 C， 那 么 4 也 认识 C)、 聚 类 性 (clustering， 有 相同 特征 或 者 
兴趣 的 人 倾向 于 一 类 ， 从 网 络 形式 上 来 看 ， 就 是 在 母 网 内 有 很 多 抱团 的 小 网 络 )、 相 互 性 
(reciprocity 或 者 mutuality， 也 就 是 说 如 果 4 加 了 B 为 好 友 ， 那 么 B 也 会 加 4 为 好 友 )、 中 
间 性 (betweenness， 通 常 是 有 影响 力 的 市 点 才 具 备 此 特征 ， 它 在 网 络 的 信息 流动 中 扮演 着 
重要 中 间 人 的 角色 )。 所 有 这 样 特性 的 存在 都 说 明 我 们 需要 更 加 复杂 的 模型 。 












































类 似 于 上 面 的 网 络 特性 都 可 以 用 数学 语言 表示 。 比 如 说 ， 传 递 性 就 可 以 表示 为 网 络 中 的 三 
角形 的 个 数 。 

指数 随机 网 络 图 模型 (ERGM) 是 社会 学 中 广泛 使 用 的 网 络 模型 ， 它 可 以 涵盖 大 多 数 我 们 
讨论 过 的 网 络 特性 。 





ERGM 的 研究 对 象 是 网 络 中 的 某 些 典型 变量 : 比如 网 络 中 三 角形 的 个 数 、 连 接 边 的 个 数 、 
双星 的 个 数 ( 双 星 指 的 是 某 个 节点 有 两 个 连接 边 ， 因 此 如 果 一 个 节点 的 自由 度 为 3， 则 它 
包含 3 个 双星 )。 这 些 变量 用 z, 表 示 ， 并 且 假 设 其 分 布 的 参数 为 0,。 例 如， 用 z, 表示 网 络 
中 三 角形 的 个 数 ， 并 且 该 变量 的 参数 为 0,。 如 果 0 是 一 个 较 大 的 正 数 ， 则 代表 该 网 络 中 有 
较 多 的 三 角形 ， 其 市 点 之 间 具 有 较 强 的 传递 性 。 


还 有 一 些 较 为 复杂 的 变量 ， 比 如 kk 星 (k-star， 与 双星 类 似 ,，k 星 表示 某 个 市 点 具有 个 连 
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接 边 ， 一 个 自由 度 为 + 1 的 节点 有 f+1 个 大 星 结构 )。 一 个 较为 复杂 的 ERGM 模型 可 以 表 
A. 

PrO = y») = (0a0) + k20) 6i 0) 
该 模型 的 含义 是 : 对 于 一 个 网 络 出 现 我 们 观测 到 的 网 络 ”的 概率 可 以 表示 一 系列 网 络 
变量 的 线性 组 合 形式 。 
从 形式 上 来 看 ， 伯 努 利 网 络 是 ERGM 的 特殊 形式 ， 也 是 最 简单 的 形式 。 伯 努 利 网 络 的 变量 
就 是 网 络 中 边 数 。 
ERGM 的 推断 问题 
从 统计 学 的 角度 来 说 ， 理 想 化 但 非常 不 现实 的 情况 是 ， 对 于 某 个 网 络 了， 我 们 可 以 观测 到 
一 系列 的 样本 网 络 ， 了 ,…,Y,， 其 中 n 是 样本 量 。 每 一 个 样本 网 络 都 假设 及 个 节点 ， 并 可 
以 用 一 个 相 邻 矩 阵 表示 。 
给 定 这 些 样本 网 络 ， 我 们 假设 它们 是 相互 独立 的 ， 并 来 自 于 同一 个 概率 分 布 模型 。 在 这 样 
的 假设 下 ，ERGM 的 推断 是 可 能 的 。? 
以 伯 努 利 网 络 为 例 ， 假 设 某 条 连接 边 存在 的 概率 为 。， 那 么 观测 到 某 一 个 特定 样本 网 络 集 
合 的 似 然 概率 可 以 表示 为 ; 








L= JI p^ eu 


i 








其 中 d; 是 第 i 个 样本 网 络 中 观测 到 的 连接 边 的 个 数 ， 而 D 是 网 络 中 所 有 二 分 体 的 个 数 。 由 
JE, p 的 估计 值 为 : 








n d 
p = tal 
nD 
然后 ， 从 实际 情况 来 看 ， 我 们 不 可 能 观测 到 一 系列 的 样本 网 络 ， 通 常 只 有 一 个 样本 ， 也 就 
是 说 有 效 样本 量 为 1。 我 们 用 1 个 样本 估计 了 模型 中 的 参数 ， 这 看 起 来 似乎 不 可 思议 。 对 
于 伯 努 利 网 络 模 型 来 说 ,p 的 估计 值 就 是 样本 网 络 中 连接 边 的 个 数 与 二 分 体 总 是 的 比例 值 。 
这 看 起 来 很 合理 。 


但 对 于 更 加 复杂 的 ERGM 模型 来 说， 一 个 样本 对 于 参数 估计 来 说 是 远 远 不 够 的 。 当 然 ， 我 
们 可 以 使 用 类 似 伪 似 然 估 计 (pseudo-likelihood estimation procedure) 这 样 的 估计 方法 。 但 
是 即便 是 这 样 ， 还 是 会 有 很 多 困难 。Mark Handcock 2003 年 的 论文 “Assessing Degeneracy 
of Statistical Models of Social Networks”(“ 论 社交 网 络 统 计 模 型 的 退化 性 ”， 参 见 http:/ 























注 2: 也 就 是 说 ， 其 中 的 参数 是 可 估计 的 。 
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citeseerx.ist.psu.edu/viewdoc/summary?doi-10.1.1.81.5086) 详细 地 讨论 了 该 问题 。 他 指出 ， 
即便 是 使 用 基于 模拟 的 方法 〈 比 如 MCMC， 马 尔 科 夫 链 蒙特 卡 洛 方法 ) ， 也 很 难 避免 “ 推 
断 退 化 ”问题 (inferential degeneracy) 。 也 就 是 说 ， 所 估计 出 来 的 网 络 很 可 能 是 一 个 退化 
的 网 络 (完全 相连 或 者 完全 没有 连接 的 网 络 )， 或 者 说 估计 的 结果 没有 一 致 性 等 很 多 问题 。 


关于 随机 图 模型 的 其 他 例子 : 隐 空 间 模型 与 小 世界 模型 

由 于 指数 随机 网 络 模型 中 可 能 出 现 的 模型 退化 以 及 模型 估计 不 稳定 的 问题 ， 研 究 人 员 提 
出 了 一 种 新 的 图 模型 : 隐 空 间 模型 (latent space model), Peter Hoff 的 文章 “Latent Space 
Approaches to Social Network Analysis”( ”基于 隐 空 间 模型 的 社交 网 络 分 析 ”， 参 见 http:/1. 
usa.gov/GzAT1Z) 是 该 研究 的 开山 之 作 。 

















隐 空 间 模 型 主要 解决 一 个 问题 :网络 中 有 很 多 因素 是 不 可 观测 的 ， 这 样 的 不 可 观测 因素 既 
是 客观 存在 的 ， 也 是 非常 重要 的 。 传 统 的 模型 不 考虑 它们 的 存在 ， 隐 空间 模型 可 以 很 好 
地 捕捉 到 这 些 因素 。 比 如 说 ，Facebook 上 的 好 友 网 络 ， 我 们 观测 到 的 是 人 们 之 间 虚 拟 的 好 
友 关系 ， 但 是 至 于 这 些 人 住 哪 、 他 们 到 底 为 什么 会 成 为 好 友 ， 单 单 从 网 络 上 来 看 是 无 从 知 
晓 的 。 


























Watts 和 Strogatz 于 1998 年 提出 了 小 世界 模型 (参见 http://en.wikipedia.org/wiki/Watts_and_ 
Strogatz_model) ， 该 模型 要 估计 的 网 络 介 于 完全 随机 网 络 与 完全 不 随机 网 络 之 间 。 它 想 在 
现实 网 络 世界 中 验证 六 维 自由 度 理论 。 然 而 ， 人 们 对 此 模型 的 批评 主要 集中 于 它 的 过 度 均 
匀 假 设 。 因 为 现实 世界 的 网 络 是 没有 尺度 特性 的 ， 并 且 非 均匀 的 。 


除了 上 述 模型 之 外 ， 还 有 很 多 其 他 的 图 模型 比如， 马尔 科 夫 随机 场 模 型 (Markov 
random field)、 随 机 块 模型 (stochastic block model), HAS RA! (mixed membership 
model)、 随 机 块 混合 会 员 模型 (stochastic block mixed membership model) 等 。 关 于 随机 
块 混合 会 员 模 型 ， 可 参考 Edoardo Airoli 等 人 的 论文 “Mixed Membership Stochastic Block 
Models”(“ 随 机 块 混 合 会 员 模 型 *"， 参 见 http://dl.acm.org/citation.cftm?id=1442798)。 








下 面 列 出 一 些 关 于 社交 网 络 分 析 的 书籍 ， 感 兴趣 的 同学 有 时 间 可 以 读 一 读 : 


* Networks, Crowds, and Markets KEE, ARST), 原 英文 版 由 剑桥 大 学 出 版 社 出 版 )， 
作者 是 来 自 于 康 奈 尔 大 学 计算 科学 学 院 的 David Easley 与 Jon Kleinberg; 

e Mining Massive Datasets (大 数据 挖掘 》， 原 英文 版 由 剑桥 出 版 社 出 版 ) 一 书 中 关于 社 
交 网 络 图 模型 分 析 的 章节 ， 作 者 是 来 自 斯 坦 福 大 学 计算 科学 学 院 的 Anand Rajaraman、 
Jeff Ullman 和 Jure Leskovec; 

e Statictical Analysis of Network Data 人 网 络 数据 的 统计 分 析 》， 原 英文 版 由 Springer 出 版 
社 出 版 )， 作 者 是 来 自 波士顿 大 学 的 Eric D. Kolazcyk。 
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10.7 ”数据 新 闻 学 


来 自 O'Reilly 的 Jon Bruner 与 我 们 分 享 了 有 关 数 据 新 闻 学 的 内 容 。Jon 之 前 在 福布斯 杂志 
做 数据 编辑 ， 他 的 数据 科学 技能 十 分 全 面 ， 他 的 研究 和 出 版 内 容 也 都 与 数据 相关 。 





10.7.1 关于 数据 新 闻 学 的 历史 回顾 

数据 新 闻 学 已 经 发 展 了 相当 长 的 时 间 ， 比 如 基于 Excel 的 自动 报告 系统 就 是 某 种 形式 的 数 
据 新 闻 学 。 但 是 这 样 的 自动 报告 系统 一 直 是 Excel 一 统 天 下 ， 即 使 在 今天 ， 如 果 你 能 写 一 
手 不 错 的 Excel 程序 ， 也 有 人 愿意 花 大 笔 钱 雇 你 。 


API 的 出 现 以 及 计算 机 价格 的 平民 化 改变 了 这 个 现状 ， 各 种 形式 的 自动 化 报告 工具 如 雨 后 
春笋 般 地 出 现 。 现 在 的 数据 分 析 工 作 ， 即 便 数 据 较 大 ， 一 个 人 也 可 以 单枪匹马 地 在 个 人 笔 
记 本 上 完成 。 越 来 越 多 的 人 开始 具备 基本 的 编程 素养 ， 其 至 有 些 作家 都 可 以 写 一 手 漂 亮 也 
数据 分 析 程 序 。 一 些 英语 专业 的 学 生 也 会 花 很 多 时 间 研究 计算 机 和 编程 。 更 有 意思 的 是 ， 
计算 机 出 身 的 人 也 可 以 写 出 一 手 很 好 的 文章 。 从 趋势 上 来 看 ， 人 们 都 变 得 越 来 越 全 面 了 。 


在 《纽约 时 报 》 这 样 的 大 型 新 闻 出 版 机 构 ， 数 据 新 闻 学 被 细 分 为 很 多 微 部 门 : 平面 设计 、 
交互 设计 、 数 据 库 工 程 、 座 虫 工程 、 软 件 设 计 、 领 域 专 家 和 写 手 ， 等 等 。 有 些 人 只 负责 提 
出 问题 ， 而 真正 动手 干 的 又 是 另 一 批 人 。 比 如 ，Charles Duhigg 任职 于 《纽约 时 报 》， 他 最 
近 收 到 了 纽约 州 议 会 关于 信息 自由 法 案 (FOIA) 的 问 案 ， 因 为 他 是 这 个 领域 的 专家 ， 因 此 
他 清楚 地 明白 就 该 方案 应 该 提 哪 些 相关 的 问题 ， 但 是 他 不 会 着 手 于 具体 的 数据 分 析 。 分 析 
的 活 是 留 给 另 一 帮 人 干 的 。 


如 果 是 在 一 个 小 公司 里 ， 情 况 就 大 不 同 了 。 在 《纽约 时 报 》 的 大 楼 里 ， 数 据 新 闻 部 门 有 差 
不 多 1000 个 员工 ， 而 在 《经 济 学 家 》 杂 志 社 ， 他 们 有 130 A, 《福布斯 杂志 》 有 接近 80 
个 人 。 如 果 你 在 一 个 小 公司 工作 ， 那 么 很 可 能 所 有 的 脏 活 累 活 你 都 得 一 个 人 全 揽 下 : 你 要 
想 该 问 哪些 问题 、 该 如 何 收集 数据 、 自 己 做 数据 分 析 、 自 己 写 数 据 分 析 报 告 。 当 然 ， 如 果 
有 两 三 个 同事 帮忙 最 好 ， 因 为 每 项 工作 都 是 技术 活 。 


10.7.2 ”数据 新 闻 报 告 的 写作 : 来 自 专家 的 建议 

Jon 毕业 于 芝加哥 大 学 ， 主 修 专业 为 数学 。 毕 业 后 加 入 了 《福布斯 》 杂 志 社 从 事 写作 工作 。 
由 于 工作 的 要 求 ， 他 也 慢 慢 地 开始 做 一 些 定量 分 析 的 工作 。 在 报道 亿 万 富翁 或 者 政治 家 的 
社会 贡献 时 ， 他 也 时 常会 用 到 一 些 图 分 析 的 工具 。 

在 课堂 下 ，Jon 以 自己 的 数据 科学 青 景 为 例 ， 为 大 家 解释 了 “数据 新 闻 学 ”的 含义 。 

首先 ， 数 据 新 闻 学 需要 大 量 的 数据 可 视 化 工作 ， 因 为 可 视 化 是 直观 地 报道 和 解释 数据 的 最 
有 效 的 工具 。 计 算 科学 方面 的 知识 对 于 精通 数据 新 闻 学 也 十 分 重要 。 因 为 时 间 就 是 生命 ， 
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数据 新 闻 要 求 对 分 析 的 工具 掌握 娴熟 ， 能 够 熟练 快速 地 处 理 好 原始 数据 。 数 据 新 闻 工 作者 
要 面 对 形 形 色 色 的 数据 ， 这 就 要 求 他 们 能 够 熟练 地 使 用 像 Python 这 样 的 工具 处 理 原始 数 
据 。Jon 自己 就 精通 JavaScript, Python, SQL 和 MongoDB, 





统计 学 对 数据 新 闻 学 的 重要 性 同样 不 言 而 喻 。 统 计 学 是 数据 分 析 的 基石 ， 是 我 们 思考 的 方 
式 。 比 如 ， 某 篇 报道 中 可 能 会 写 “Twitter 上 平均 每 个 女性 有 250 个 好 友 ”， 这 里 使 用 的 是 
平均 值 。 如 果 用 中 位 数 ， 则 平均 每 个 女性 的 好 友 数 为 0。 因 为 原始 数据 是 严重 不 对 称 的 ， 
使 用 不 同 的 统计 量 则 可 以 讲 出 不 同 的 故事 。 











Brune 说 他 本 人 在 机 器 学 习 方 面 是 一 个 不 折 不 扣 的 新 手 ， 但 是 掌握 一 些 机 器 学 习 的 理论 和 
技术 对 于 数据 新 闻 学 同样 重要 。 这 也 与 你 工作 单位 的 规模 有 关系 ， 如 果 你 任职 于 政府 部 门 
或 者 大 型 的 日 报 集团 ， 那 么 你 需要 是 某 个 领域 的 专家 。 然 而 ， 如 果 你 在 一 个 小 单位 工作 ， 
就 像 我 们 之 前 说 的 ， 你 什么 都 得 懂 。 























另外 两 项 对 于 数据 新 闻 工 作者 来 说 至 关 重 要 的 技能 是 : 交流 与 展示 。 如 何 把 一 个 个 复杂 的 
故事 以 通俗 、 容 易 理解 的 方式 展示 给 读者 ， 是 数据 新 闻 工 作 的 基本 要 求 。 同 样 ， 数 据 新 闻 
工作 者 要 时 刻 准 备 着 回答 读者 提出 的 各 种 问题 ， 把 问题 转化 成 数据 分 析 任 务 ， 再 将 分 析 的 
结果 以 同样 通俗 和 容易 理解 的 方式 反馈 给 读者 。 


Jon 给 大 家 的 最 后 一 条 建议 是 : 时 刻 准 备 好 改变 主意 ! 数据 新 闻 工 作 类 似 于 探索 性 数据 分 
析 ， 我 们 要 自己 做 分 析 也 要 和 领域 专家 打交道 。 信 息 会 以 一 种 非常 难以 预料 的 方式 砸 向 我 
们 ， 因 此 我 们 应 该 时 刻 做 好 改变 主意 、 改 变 思 萎 和 分 析 方 向 的 准备 。 
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因 来 关系 研究 





到 目前 为 止 ， 本 书 讨论 的 模型 和 一 些 实例 都 是 针对 预测 问题 的 。 比 方 说 ， 第 8 章 我 们 介绍 
了 如 何 预测 人 们 对 某 件 事物 的 偏好 :比如 一 部 电影 或 一 本 书 。 这 样 的 模型 可 以 纳入 成 百 上 
千 个 特征 变量 ， 再 利用 变量 选择 的 方法 盘 选 出 对 于 因 变 量 最 为 重要 的 那些 特征 变量 。 模 型 
的 终极 目标 是 最 大 化 模型 的 预测 准确 度 。 在 模型 优化 过 程 当中 ， 变 量 本 身 的 含义 和 解释 就 
显得 无 足 轻重 了 。 尤 其 是 当 模 型 中 的 变量 个 数 很 多 时 ， 我 们 不 可 能 逐一 地 解释 每 个 变量 包 
含义 。 











也 就 是 说 ， 如 果 建 模 的 目的 是 最 大 化 模型 的 预测 精度 ， 那 么 你 大 可 不 必 花 很 多 心思 在 变 
量 的 解释 上 。 例 如 ， 一 个 亚马逊 的 图 书 推荐 模型 可 能 包含 这 样 一 个 变量 ， 即 “你 是 否 读 
过 Wes McKinney 的 O'Reilly 系列 书 Python for Data Analysis”， 这 个 变量 对 于 预测 你 是 否 
会 读 这 本 书 当 然 有 有 用。 但是， 是否 读 过 这 本 书 就 代表 你 会 买 下 它 ? 这 可 说 不 定 。 而 且 这 个 
解释 本 身 听 起 来 就 像 是 一 段 同 义 反 复 。 当 我 们 的 建 模 标 准时 预测 准确 度 时 ， 我 们 可 以 这 么 
做 ， 不 必 担 心 如 何 理解 或 者 解释 变量 间 可 能 存在 的 因果 关系 。 但 是 ， 如 果 你 真 的 想 要 构建 
研究 因果 关系 的 模型 时 ， 就 不 能 这 么 干 了 。 



































实际 生活 中 不 是 所 有 的 问题 都 是 预测 问题 ， 你 可 能 真 的 想 要 研究 变量 之 间 的 因果 关系 。 到 
底 什么 是 因果 关系 ?说白 了 ， 如 果 你 想 要 做 出 某 种 行为 导致 了 某 个 结果 的 论断 ， 这 便 是 因 
果 关 系 推 断 。 因 果 关 系 模型 并 不 是 一 套 完全 不 同 于 预测 模型 的 统计 方法 。 恰 好 相反 ， 它 其 
实 是 根植 于 传统 预测 模型 (如 逻辑 回归 、 线 性 回归 ) 的 框架 内 的 。 但 是 ， 你 的 思路 和 目标 
就 不 再 是 优化 模型 以 提高 预测 的 准确 性 了 ， 而 是 尽力 分 离 出 变量 之 间 的 因果 关系 。 







































































这 一 章 我 们 就 要 着 重 探讨 因果 关系 的 建 模 。 我 们 特别 邀请 了 这 个 领域 的 两 位 专家 : Ori 
Stitelman 和 David Madigan, Madigan 也 是 下 一 章 的 主要 贡献 者 (我 们 会 在 下 一 章 详 细 介绍 
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他 )。 但 是 想 要 想 理解 下 一 章 的 内 容 需 要 仔细 研读 本 章 。Ori 是 Wells Fargo 的 一 名 数据 科 
学 家 ， 他 之 前 在 一 家 法 律 事务 咨询 事务 所 工作 ， 随 后 在 加 州 大 学 伯 殉 利 分 校 获得 了 生物 统 
计 学 的 博士 学 位 。 他 的 主要 工作 是 从 数据 中 抽取 信息 、 找 出 故事 ， 并 与 相关 领域 的 专家 交 
流 。 在 与 形形色色 的 数据 库 打 过 交道 之 后 ， 他 提出 了 “数据 直觉 ”这 一 概念 。 


11.1 相关 性 并 不 代表 因果 关系 


确定 两 个 变量 间 的 因果 关系 是 统计 学 的 一 大 难题 。 想 一 想 ， 当 你 说 一 个 事件 会 导致 另 一 寻 
件 的 发 生 的 时 候 ， 需 要 多 大 的 勇气 ? 实话 来 说 ， 确 定 因果 关系 确实 是 一 项 艰巨 的 任务 ! 
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假设 我 们 发 现 了 冰激凌 的 销售 额 与 泳衣 销售 额 之 间 存 在 相关 性 ， 图 11-1 画 出 了 它们 的 时 间 
序列 图 ， 图 中 可 以 看 到 它们 之 间 有 明显 的 相关 关系 。 





























冰激凌 销量 与 比基尼 销量 的 关系 图 














专家 提示 | 冰激凌 销量 的 增长 能 够 带动 比基尼 销量 的 上 升 

















图 11-1: 冰淇淋 销售 额 与 泳衣 销售 额 的 时 间 序 列 图 


虽然 该 图 显示 二 者 密切 相关 ， 但 这 并 没有 建立 起 任何 的 因果 关系 。 现 在 重新 考虑 二 者 的 关 
系 ， 许 多 解释 都 可 能 符合 图 中 二 者 的 关系 : 也 许 是 当 人 们 穿着 访 衣 时 ， 就 特别 想 吃 冰 激 
B? 也 许 是 每 次 吃 冰 激 凌 时 ， 人 们 都 会 换 上 泳衣 ?又 或 者 是 我 们 没 考虑 到 的 第 三 个 变量 
(如 高 温 ) 导致 上 述 二 者 同时 发 生 ? 这 些 听 起 来 都 有 可 能 ， 尤 其 是 第 三 个 关于 高 温 的 推测 。 
因果 关系 推断 就 是 为 了 理解 在 哪些 情况 下 ， 变 量 之 间 的 这 种 相关 关系 可 以 确定 为 因果 关系 。 
































11.1.1 对 因果 关系 提问 


对 因果 关系 最 自然 的 提问 方式 是 : x 对 y 的 影响 是 什么 ? 


来 看 几 个 例子 :“ 广 告 对 消费 者 行为 的 影响 是 什么 ” “药物 对 杀 死 某 病 毒 有 效 吗 ”， 又 或 者 
更 一 般 的 说 法 ,“ 实 验 对 结果 的 影响 是 什么 ”。 
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“实验 ”与 “ 非 实 验 ” 这 两 个 术语 来 自生 物 统计 学 、 医 学 与 临床 学 领域 ， 指 
。 的 是 患者 是 否 接受 了 某 种 医学 治疗 或 者 处 理 。 关 于 医学 (流行 病 学 ) 的 例子 
二 会 在 下 一 章 详 细 讨 论 。 本 章 之 后 的 讨论 会 经 常 使 用 “实验 ”和 “处 理 ” 这 样 
的 术语 。 这 些 术 语 也 经 常 出 现在 统计 学 和 社会 学 研究 的 文献 中 。 





























实话 说 ， 因 采 推 断 中 的 参数 估计 是 非常 困难 的 。 比 如 说 ， 广 告 到底 有 设 有 作用 ? 它 的 作用 
有 多 大 ?这 是 一 个 典型 的 因果 推断 问题 ， 但 是 却 基 本 不 可 能 有 精确 的 答案 。 因 为 其 中 因果 
关系 的 强度 实在 是 太 难 估量 了 。 人 们 通常 花 大 力气 研究 那些 简单 易 测 的 变量 ， 但 这 些 变量 
却 并 未 能 测 出 他 们 想 要 的 东西 ， 而 大 家 不 管 三 七 二 十 一 ， 都 根据 这 些 变量 的 研究 结果 做 出 
决策 ， 这 样 的 研究 是 非常 不 负责 任 的 。 比 如 ， 营 销 人 员 会 因为 销售 业绩 好 而 受到 公司 的 奖 
励 ， 因 为 公司 认为 他 们 的 营销 努力 为 公司 带 来 了 更 高 的 销售 额 。 这 是 一 个 典型 的 因果 关系 
推断 ， 但 是 其 中 一 个 值得 怀疑 的 地 方 是 ， 销 售 业绩 好 可 能 是 因为 那些 消费 者 本 来 就 有 强烈 
的 购物 欲望 ， 跟 营销 人 员 的 工作 没有 关系 。 这 里 面 就 有 一 个 “干扰 因子 ”的 问题 ， 它 是 因 
果 关 系 推断 的 核心 概念 ， 下 面 我 们 就 用 一 个 更 加 详细 的 例子 解释 这 个 概念 。 






























































11.1.2 干扰 因子 : 一 个 关于 在 线 约会 网 站 的 例子 

让 我 们 来 看 这 样 一 个 例子 ， 是 有 关 一 个 叫 Frank 的 寂寞 的 家 伙 在 网 上 约会 的 事 。 假 设 Frank 
在 一 个 约会 网 站 上 发 现 了 心仪 的 对 象 。 为 了 说 服 她 出 来 跟 他 约会 ， 他 首先 要 写 一 封 能 引起 
她 兴趣 的 邮件 。 他 该 在 这 封 搭 训 邮 件 里 说 些 什 么 ”如果 Frank 看 过 这 位 姑娘 的 头像 ， 觉 得 
她 长 得 很 漂亮 。 那 么 他 能 直接 在 搭 训 的 邮件 里 夸赞 对 方 长 得 漂亮 四 ?也 就 是 说 ， 在 搭 训 邮 
件 里 就 直接 夸赞 对 方 漂亮 对 Frank 有 好 处 吗 ? 对 方 会 买账 吗 ? 



































理论 上 来 说 ，Frank 可 以 做 一 个 随机 实验 。 假 设 他 心仪 的 对 象 有 很 多 ， 这 些 对 象 构成 一 个 
样本 。 随 机 实验 的 做 法 是 ， 将 样本 随机 分 成 两 半 ， 一 半 的 样本 Frank 会 在 搭 训 邮 件 中 称赞 
说 她 们 很 漂亮 ， 而 对 另 一 半 的 人 不 做 任何 奔 赞 。 如 果 前 一 半 的 对 象 反馈 要 明显 好 于 后 一 
半 ， 那 么 就 可 以 确认 这 样 的 搭 训 技 巧 是 有 效 的 。 




















然而 ， 不 管 是 什么 原因 ，Frank 并 没有 这 人 么 做 。 这 个 做 法 听 起 来 就 挺 疯 狂 的 。 于 是 得 由 我 
们 来 决定 ， 对 Frank 而 言 ， 这 样 的 搭 训 风 格 是 否 有 效 。Frank 能 否 搭 训 成 功 现在 完全 取决 
于 我 们 。 





让 我 们 先 将 这 个 因果 问题 明确 地 提出 来 : Frank 在 搭 训 邮 件 中 告诉 一 位 姑娘 她 很 漂亮 会 对 
他 的 搭 训 成 功率 产生 什么 影响 ? 换 句 话说 ， 这 里 的 “实验 ”， 或者“ 处理 ”， 是 Frank 通过 
搭 训 邮 件 告诉 一 位 寻 女 她 很 漂亮 ， 而 “结果 ”是 这 个 姑娘 有 无 积极 的 回复 。 这 里 的 “控制 
实验 ”就 是 Frank 在 搭 训 邮 件 中 没有 提 到 “漂亮 ”的 事 ， 而 是 扯 了 一 些 别 的 。 
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在 这 个 例子 中 ， 其 实 还 有 很 多 因素 没有 考虑 。 例 如 ， 我 们 并 没有 提 到 Frank 
«v 4 ， 的 为 人 。 他 也 许 是 个 怪 胎 ， 很 不 讨 人 喜欢 。 因 此 无 论 他 说 什么 都 没有 寻 娘 愿 
” 意 跟 他 约会 。 又 或 许 他 压根 不 会 写 “ 漂 亮 ” 这 个 词 。 相 反 ， 如 果 他 是 个 是 
哥 、 上 暧 男 或 者 名 人 ， 则 不 管 他 说 不 说 ， 女 方 可 能 都 愿意 与 他 约会 7 AIh, 
到 大 部 分 的 约会 网 站 给 男性 与 女性 联系 对 方 提供 了 同等 便利 的 条 件 ， 有 
些 姑娘 可 能 会 主动 找 上 Frank， 无 论 Frank 有 没有 事先 给 她 们 发 邮件 。 因 此 ， 
从 这 些 因 素来 看 ， 因 果 推 断 其 实 是 非常 复杂 的 。 
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11.2. OK Cupid 的 发 现 


OK Cupid 是 一 家 在 线 约 会 网 站 ， 他 们 利用 近 50 万 会 员 的 数据 ， 分 析 了 一 些 常 用 词 和 短语 
在 第 一 次 邮件 ( 搭 训 邮 件 ) 接触 的 时 候 对 回复 率 的 影响 。 分 析 的 结果 可 见 图 11-2。 
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图 11-2: OK Cupid 的 研究 发 现 ， 在 第 一 次 接触 性 对 话 中 使 用 “漂亮 ”一 词 不 利于 得 到 积极 的 答复 
( 另 见 彩 插图 11-2) 


了 轴 表 示 回 复 率 。 平 均 来 看 ， 所 有 邮件 的 回复 率 约 为 32%。 然 后 ， 他 们 将 这 些 邮 件 按 关 键 
词 ， 如 “漂亮 ”或 “惊艳 ”来 分 类 ， 并 观察 各 类 邮件 的 回复 率 。 如 果 用 条 件 概率 来 表达 上 
述 结果 ， 可 以 说 他 们 估计 的 结果 是 : P( 回复 )= 0.32， 而 P( 回复 | “漂亮 ”) = 0.22。 



































4 ， 次 接触 性 对 话 中 使 用 了 这 些 词 ” 这 个 问题 并 不 会 改变 所 得 到 的 结果 ， 但 它 却 
有 助 于 我 们 和 弄 清楚 图 中 那 条 位 于 3290 的 横 线 是 否 是 根据 每 个 分 类 样本 的 样本 
量 计算 的 加 权 平 均值 。 





1 上 图 遗漏 了 一 个 重要 信息 : 那 就 是 每 个 分 类 样本 的 的 样本 量 。 有 多 少 人 在 首 
aa 
4 
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他 们 把 上 述 发 现 总 结 为 搭 训 的 第 一 原则 :“ 避 免 过 度 茶 维 。” 他 们 还 把 这 条 发 现 发 在 了 公司 
的 博客 上 ， 题 为 “在 线 约会 应 该 如 何 搭 训 ”。 文 中 说 到 :“ 你 也 许 认 为 人 们 都 喜欢 被 “光彩 
照 人 ”漂亮 性 感 ” 这 样 的 词语 包围 ， 但 从 在 线 约会 搭 训 的 数据 分 析 来 看 倒 并 非 如 
此 。 在 见面 之 前 ， 用 这 些 词 语 搭 训 往 往 会 事与愿违 。 另 外 ， 当 你 告诉 一 位 女士 她 很 漂亮 的 
时 候 ， 很 可 能 是 你 不 够 帅 。 


从 统计 学 的 角度 来 说 ， 上 面 的 例子 叫 作 观察 性 研究 。 观 察 性 研究 指 的 是 数据 的 生成 过 程 没 
有 受 人 为 干扰 ， 是 自然 生成 的 。 这 与 人 工 设计 的 实验 正好 相反 一 一 在 实验 中 各 种 因素 都 
被 人 为 控制 ， 以 研究 某 一 个 特定 因素 对 实验 结果 的 影响 。 从 观察 性 研究 的 角度 来 说 ， 能 
否 根据 上 图 就 推断 ， 在 邮件 中 使 用 “惊艳 ”(fasinating) 可 以 提高 回复 率 ， 而 使 用 “漂亮 ” 
(beautiful) 就 会 降低 回复 率 呢 ? 













































































在 回答 这 个 问题 之 前 ， 先 考虑 以 下 三 方面 的 问题 。 


首先 ， 在 第 一 次 搭 训 的 时 候 用 “漂亮 ”这 个 词 ， 往 往 在 瞳 示 对 方 自己 也 很 是? 而 对 方 可 能 
会 认为 此 人 太 过 多 情 。 另 外 ,“ 漂 亮 ” 不 仅 可 以 用 来 形容 女性 ， 也 同样 可 以 用 来 形容 食物 、 
衣物 等 。 因此， 也 要 考虑 词语 使 用 的 具体 语 境 。 


其 次 ， 上 面 的 两 点 在 因果 推断 的 时 候 都 要 考虑 到 。 但 是 即便 语 境 本 身 很 重要 ， 但 是 从 
Frank 个 人 的 角度 来 看 ， 其 实 关系 并 不 大 ， 因 为 不 管 他 多 么 多 情 ， 或 者 他 用 “漂亮 ”赞美 
的 是 其 他 食物 ， 这 对 于 Frank 搭 训 的 对 象 来 说 都 是 出 自 Frank 之 手 ， 因 此 对 于 Frank 本 人 
来 说 ， 这 些 因素 并 没有 干扰 因果 推断 本 身 。 


最 后 ， 要 考虑 的 最 重要 的 问题 是 ， 收 到 包含 “漂亮 ”一 词 邮件 的 人 很 可 能 比较 特别 ， 她 可 
能 因为 头像 比较 好 看 而 经 常 被 人 搭 训 。 因 此 ， 这 部 分 女性 每 天 会 收 到 成 堆 的 邮件 ， 而 只 有 
精力 回复 其 中 很 少 一 部 分 ， 因 此 像 Frank 这 样 的 人 收 到 她 们 回复 的 可 能 性 就 更 小 了 。 


事实 上 ， 如 果 “ 漂 亮 ” 可 以 被 完整 地 定义 ， 它 在 这 个 例子 中 可 被 视 作 一 个 干扰 因子 。 也 就 
是 说 ， 如 果 这 个 女士 真 的 “漂亮 5， 会 同时 影响 到 Frank 是 否 给 她 发 邮件 以 及 她 是 否 会 回复 
Frank。 当 一 个 变量 同时 影响 到 “实验 ”本 身 ， 以 及 “实验 ”的 结果 时 ， 它 就 是 一 个 干扰 
因子 。 








































































































如 果 考 虑 干扰 因子 的 影响 ，OK Cupid 的 研究 以 及 他 们 对 上 图 的 解释 可 能 是 完全 错误 的 。 但 
由 于 我 们 设法 得 到 实际 的 数据 ， 也 不 能 妄 下 定论 。 但 是 ， 我 们 可 以 讲 清楚 我 们 需要 什么 样 
的 数据 ， 以 及 如 何 合 理 地 分 析 数 据 。 他 们 的 分 析 和 解释 也 许 是 对 的 ， 但 单 从 一 张 图 很 难 做 
出 合理 的 因果 推断 。 


11.3 ”黄金 准则 : 随机 化 临床 实验 


我 们 到 底 应 该 怎么 做 才能 确定 变量 之 间 的 因果 关系 呢 ? 
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确立 因果 关系 的 黄金 准则 是 使 用 随机 化 实验 。 顾 名 思 义 ， 随 机 化 实验 的 关键 在 于 随机 化 : 
样本 被 随机 化 为 两 个 子 样本 ， 一 个 作为 实验 组 〈 接 受 处 理 ) ， 另 一 个 作为 控制 组 。 随 机 化 
之 后 ， 两 组 样本 的 表现 差异 就 可 以 视 作 是 “处 理 ” 因 素 引 起 的 。 从 统计 学 角度 来 看 ， 随 机 
化 保证 了 两 个 子 样本 都 是 来 自 同一 个 总 体 的 同 质 样本 ， 因 此 对 于 两 个 子 样本 来 说 ， 潜 在 干 
扰 因 子 的 可 能 影响 是 同等 的 。 这 从 理论 上 排除 了 所 有 潜在 干扰 因子 的 影响 。 

随机 实验 的 效果 很 好 ， 因 为 在 随机 化 的 过 程 中 ， 所 有 可 能 成 为 干扰 因子 的 因素 都 被 排除 了 


(比如 是 否 有 吸烟 史 )。 随 机 化 保证 了 有 抽烟 史 的 人 将 会 以 同样 的 概率 被 分 到 两 个 子 样本 
中 ， 于 是 “吸烟 史 ” 这 样 一 个 干扰 因子 就 被 随机 化 排除 了 。 




































































随机 实验 的 绝妙 之 处 在 于 ， 不 单 是 我 们 所 能 想到 的 ， 就 连 那 些 我 们 很 难 考 虑 到 的 无 数 其 他 
干扰 因子 的 影响 ， 也 被 排除 了 。 





因此 ， 虽 然 我 们 可 以 通过 算法 针对 某 些 变量 找到 一 些 不 错 的 划分 ， 但 是 这 些 划分 不 可 能 对 
所 有 变量 都 有 同样 好 的 效果 。 这 也 正 是 我 们 需要 随机 化 的 原因 ， 因 为 随机 化 无 论 对 于 我 们 
能 考虑 到 的 变量 还 是 没有 考虑 的 变量 都 有 同等 的 效果 。 


























随机 实验 在 医学 研究 中 也 有 自己 的 软肋 。 根 据 医学 研究 的 “临床 均衡 ”原则 ， 只 有 当 医学 
界 确实 不 清楚 哪 一 种 治疗 方法 更 好 时 ， 随 机 化 分 组 才 是 道德 上 可 以 接受 的 。 如 果 研 究 人 员 
基本 确信 某 药 物 对 某 疾 病 有 效 ， 而 将 一 部 分 人 随机 化 分 组 到 控制 组 中 (也 就 是 说 ， 不 给 予 
该 药物 治疗 )， 这 是 不 符合 医疗 道德 的 。 





举 个 例子 。 为 了 找 出 抽烟 与 心脏 病 之 间 的 联系 ， 我 们 不 能 随机 地 选 出 一 部 分 人 并 建议 他 们 
抽烟 ， 因 为 抽烟 有 害 健康 是 一 个 公认 的 事实 。 同 样 ， 采 取 随 机 临床 实验 研究 吸食 可 卡 因 与 
婴儿 重量 的 关系 也 犯 了 道德 禁忌 ， 研 究 饮食 与 死亡 率 的 关系 也 同样 十 分 棘手 ， 因 为 这 些 都 
直接 影响 到 人 们 的 生命 健康 安全 。 




















另 一 个 问题 是 ， 随 机 临床 实验 通常 都 耗资 巨大 并 且 十 分 烦琐 。 然 而 ， 了 矛盾 的 是 ， 如 果 不 做 
随机 临床 实验 又 可 能 导致 错误 的 研究 结论 ， 代 价 甚 至 更 加 昂贵 。 


当然 ， 有 时 候 不 是 想 做 随机 实验 都 可 以 做 的 ， 在 很 多 情况 下 ， 随 机 实验 甚至 是 不 能 实现 
的 。 比 如 在 OK Cupid 的 例子 中 ， 我 们 明明 知道 存在 大 量 的 干扰 因子 ， 却 无 法 应 用 随机 实 
验 。 为 什么 呢 ? 想象 一 下 ， 如 果 系 统 随 机 的 给 女性 会 员 发 送 赞 美 她 们 的 邮件 ， 那 么 OK 
Cupid 可 能 第 二 天 就 倒闭 了 。 











总 之 ， 当 随机 实验 的 条 件 满足 时 ， 它 是 解决 因果 推断 问题 的 黄金 法 则 。 然 而 ， 随 机 实验 也 
常常 由 于 道德 和 现实 条 件 的 限制 而 变 得 不 可 行 。 
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平均 与 个 体 


随机 临床 实验 衡量 的 是 某 一 种 药物 对 所 有 人 的 平均 效用 。 要 想 研 究 关于 男性 、 女 性 ， 
或 者 某 一 年 龄 段 的 组 别 平均 效用 ， 则 需要 采取 分 组 的 方法 。 但 即便 分 组 得 很 仔细 ， 所 
得 到 的 效用 也 仍 是 平均 意义 上 的 。 换 向 话 说 ， 我 们 的 研究 还 不 能 将 实验 的 效用 具体 到 
某 个 人 身上 。 最 近 一 段 时 间 ， 伴 随 基因 组 技术 的 出 现 ， 个 性 化 临床 研究 开始 萌芽 并 显 
示 出 其 独特 的 应 用 价值 。 以 之 前 OK Cupid 的 研究 为 例 ， 研 究 的 结论 是 所 有 男性 的 平 
HAR, 而 不 能 单独 应 用 在 Frank 身上 。 











11.4 A/B 测试 


在 软件 领域 ， 随 机 实验 也 称 作 AB 测试 。 事 实 上 ， 我 们 发 现 ， 如 果 对 工程 师 说 “实验 ”这 
个 词 ， 那 意味 “尝试 新 的 事物 ”: 如 让 用 户 实验 同一 个 产品 的 不 同 版 本 ， 以 推断 用 户 对 软 
件 版 本 的 喜爱 偏好 ， 而 不 一 定 是 指 一 种 统计 分 析 方 法 。A/B 测试 其 实 十 分 易于 理解 ， 操 作 
起 来 也 不 是 很 麻烦 。 事 实 是 ， 一 个 简单 的 AB 实验 可 以 用 一 个 简短 的 配置 文件 ， 外 加 一 个 
调整 参数 〈 如 颜色 、 外 观 、 软 件 版 本 等 ) 即 可 实现 。 因 此 ， 在 科技 公司 内 开展 AB 测试 在 
某 些 方面 比 进行 一 个 临床 实验 要 简单 得 多 。 并 且 ， 由 于 和 人 的 生命 健康 关系 不 大 ， 因 此 实 
验 的 道德 和 实际 风险 都 很 小 。 在 医学 随机 临床 实验 中 ， 我 们 不 能 选择 让 一 部 分 人 用 药 而 另 
一 部 分 人 不 用 ， 而 如 果实 验 的 平台 是 整个 互联 网 ， 我 们 可 以 决定 给 用 户 展示 什么 或 者 不 展 
示 什 么 ， 这 基本 不 会 引起 任何 监管 的 问题 。 但 这 些 也 都 不 是 绝对 的 ， 即 便 是 科技 公司 和 互 
联网 公司 ， 在 AB 测试 时 也 需要 考虑 很 多 问题 。 



























































A/B 测试 理论 上 很 简单 ， 但 放 到 公司 层面 ， 实 施 起 来 却 没 有 那么 容易 。 公 司 的 产品 部 门 会 
有 很 多 小 组 ， 每 个 小 组 否 负责 产品 某 方面 的 特性 。 如 有 果 这 些小 组 在 A/B 测试 的 时 候 没 有 协 
调 好 ， 那 么 AB 测试 的 效果 会 大 打折 扣 。 比 如 ， 用 户 界面 小 组 总 是 想 测试 用 户 对 字体 字号 
的 喜好 ， 于 是 会 用 到 A/B 测试 。 与 此 同时 ， 内 容 评分 小 组 想 要 改善 某 个 推荐 算法 ， 也 会 用 
到 AB 测试 ， 而 广告 小 组 则 会 想方设法 提高 广告 系统 的 盘 利 能 力 ， 也 用 到 AB 测试 。 在 
A/B 测试 的 时 候 ， 各 个 小 组 关心 的 结果 是 一 样 的 : 某 项 改动 能 否 带 来 更 多 的 用 户 点 击 。 在 
测试 的 过 程 中 ， 如 果 某 个 小 组 发 现 ， 用 户 点 击 率 确 实在 某 项 改动 之 后 有 了 显著 的 增加 。 然 
而 ， 这 个 增加 的 效果 到 底 应 该 归功 于 用 户 界面 小 组 ， 还 是 另外 两 个 小 组 呢 ? 如 果 小 组 之 间 
iil NE, BARS, DUI AB 测试 的 结果 可 能 会 无 法 溯源 。 用 户 界面 小 组 认为 是 字体 的 改 
变 带 来 了 更 多 的 用 户 点 击 ， 但 实际 上 很 可 能 是 由 于 推荐 算法 的 改变 或 者 广告 系统 的 升级 等 
多 项 改变 联动 引起 。 


A/B 实验 的 的 基本 构建 有 很 多 方面 是 要 细心 考虑 的 ，Diane Tang 等 人 于 2010 年 所 写 的 论文 
“Overlapping Experiment Infrastructure: More, Better, Faster Experimentation”(“ 重 复 实验 构 
E. 更 多 、 更 好 、 更 快 的 实验 ”) 对 此 有 过 详细 介绍 。 我 们 从 该 论文 中 摘 取 一 段 ， 与 大 家 


分 享 。 




































































228 | 第 11 章 





摘自 “重复 实验 构建 : 更 多 、 更 好 、 更 快 的 实验 ” 
如 题 ， 我 们 进行 实验 基础 构建 是 为 了 实现 更 多 、 更 好 、 更 快 的 目标 。 


。 更 多 
实验 需 具 备 可 扩展 性 以 同时 运行 更 多 的 实验 。 然 而 ， 灵 活性 也 十 分 重要 ， 因 为 不 同 
的 实验 需要 不 同 的 参数 设置 以 及 不 同 的 样本 量 以 更 好 的 估计 统计 显著 性 。 某 些 实验 
可 能 只 与 程序 运行 的 某 个 子 段 有 关 ， 而 其 他 实验 可 能 与 整 段 程序 有 关 。 


。 更 好 
应 该 尽量 避免 明显 无 效 的 实验 ， 低 效 的 实验 也 应 该 得 到 尽早 地 优化 或 者 直接 别 除 
(比如 错误 代码 或 者 效果 明显 很 差 的 代码 等 )。 应 该 用 一 REORUM EROR 
R, HERRA SEG GR ERA 


€ 
构建 实验 的 方法 应 该 简单 易 行 ， 以 便 非 工程 师 不 用 写 代 码 也 能 直接 上 马 实 验 。 实 验 
模型 的 评估 应 该 快 准 狠 。 如 果 是 简单 的 重复 性 实验 ， 速度 是 关键 。 理 想 的 状态 下 ， 
系统 应 该 不 仅 能 够 支持 实验 ， 还 能 够 系统 的 控制 项 目的 预 热 与 疏 升 。 也 就 是 说 ， 实 
验 或 者 模型 的 某 种 变动 应 该 以 一 种 系统 性 的 、 容 易 被 理解 的 方式 ， 逐 渐 地 渗透 到 项 
目的 其 他 部 分 




















一 个 项 目的 实验 基础 架构 通常 会 由 一 个 很 大 的 团队 在 背后 支撑 ， 全 天 候 地 做 着 各 种 各 样 
的 分 析 工 作 。 虽 然 是 基础 架 n 却 绝 非 易 事 。 随 着 社交 网 络 的 迅猛 发 展 ， 实 验 的 基础 架 
构 变 得 越 来 越 复 杂 。 因 为 网 络 的 先天 相关 性 为 实验 设计 中 的 独立 性 假设 提出 了 巨大 的 挑 
战 。 比 如 说 ，Facebook 设计 了 一 个 实验 ，Rachel 被 分 在 了 “实验 组 ”， 实 验 处 理 的 内 容 要 
R Rachel 发 表 一 些 特定 内 容 的 博客 ， 而 Cathy 被 分 在 了 控制 组 。 实 验 的 随机 化 原则 告诉 我 
们 ，Rachel 和 Cathy 是 相互 独立 的 。 但 事实 上 呢 ? 由 于 社交 网 络 的 关联 性 ，Rachel 发 的 博 
客 ，Cathy 即便 是 在 控制 组 也 难免 会 看 到 这 些 博客 ， 因 此 她 们 不 是 完全 独立 的 : Cathy 因为 
网 络 的 关联 性 ， 也 接受 了 一 定 程度 的 “处 理 ”。 社 交 网 络 为 很 多 基础 研究 都 提出 了 新 的 课 
题 ， 有 竺 科学 家 们 进一步 研究 。 


11.5 退 一 步 求 其 次 : 关于 观察 性 研究 
虽然 一 般 情况 下 因果 关系 推断 的 黄金 准则 是 采用 随机 实验 或 A/B 测试 ， 但 正如 我 们 反复 强调 
的 ， 它 们 并 不 总 是 可 行 的 。 有 时 候 我 们 不 得 不 退 而 求 其 次 ， 用 观察 性 研究 的 方法 解决 问题 。 









































让 我 们 先 介 绍 它 的 定义 : 


性 研究 是 当 控 制 实验 (随机 实验 ) 不 可 行 时 而 采用 的 一 项 分 析 因果 关系 的 实 
证 性 研究 方法 。 
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许多 数据 科学 研究 都 是 围绕 观察 性 数据 展开 的 。 前 面 所 讨论 过 的 A/B 测试 是 个 例外 。 很 多 
时 候 ， 你 能 使 用 的 数据 就 是 你 所 观察 到 的 数据 。 很 多 时 候 ， 我 们 没有 能 力 让 时 间 倒 流 ， 或 
者 让 同样 一 件 事 情 重 复发 生 。 例 如 ， 对 于 总 统 大 选 这 样 的 事件 ， 我 们 只 有 观察 性 的 数据 ， 
不 可 能 进行 任何 实验 。 


众所周知 ， 实 验 性 的 数据 要 优 于 观察 性 的 数据 ， 因 为 在 实验 中 ， 很 多 因素 可 以 被 人 为 地 控 
制 ， 观 察 性 的 数据 则 不 然 。 然 而 很 多 的 实验 从 道德 、 成 本 上 来 考虑 是 不 现实 的 。 因 此 我 们 
不 得 不 分 析 手 头 能 够 得 到 的 、 观 察 性 的 数据 。 观 察 性 研究 就 是 在 这 样 的 一 个 背景 下 ， 为 了 
研究 因果 关系 而 退 而 求 其 次 的 研究 方法 。 























即便 你 可 能 毫 不 关心 因果 推断 的 问题 ， 而 只 在 意 模 型 的 预测 效果 ， 预 测 模型 使 用 的 仍然 是 
观察 性 的 数据 。 观 察 性 研究 中 可 能 遇 到 的 问题 ， 在 预测 模型 中 同样 会 遇 到 。 





11.5.1 辛普森 悖 论 
首先 ， 观 窦 性 研究 中 存在 着 许多 陷阱 ， 辛 普 森 悖 论 就 是 其 中 一 个 。 


图 11-3 是 一 个 简单 的 散 点 图 ， 你 可 以 找到 一 条 最 佳 拟 合 线 来 描述 是 否 食用 高 剂量 的 某 种 
“不 良药 剂 ”会 提高 犯 心脏 病 的 概率 。 
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11-9. 患 心脏 病 (简称 为 MI) 的 概率 与 某 种 “不 良药 剂 ” 摄 入 量 的 关系 散 点 图 

从 最 佳 线性 拟 合 的 角度 来 看 ， 上 图 似乎 表明 食用 剂量 越 高 ， 犯 心脏 病 的 可 能 性 越 小 。 但 
是 ， 图 中 的 数据 形成 了 两 个 明显 的 聚 类 ， 如 果 进 一 步 分 析 这 两 个 聚 类 ， 反 而 会 得 出 截然 相 
反 的 结论 ， 这 从 图 11-4 可 以 看 出 。 
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日 服 阿 司 匹 林 


没有 日 服 阿 司 匹 林 





“不 良药 剂 ” 摄 入 量 














图 11-4. 患 心脏 病 (简称 为 MI) 的 概率 与 某 种 “不 良药 剂 ” 摄 入 量 的 关系 散 点 图 ， 此 处 考虑 两 个 聚 
类 ， 一 类 是 日 服 了 阿司匹林 的 患者 ， 一 类 是 没有 日 服 阿司匹林 的 患者 


这 幅 图 是 有 意 设计 的 ， 因 此 聚 类 的 问题 看 起 来 十 分 明显 。 但 当 数 据 是 多 维 时 ， 你 很 难 一 眼 
就 看 出 来 其 中 可 能 存在 类 似 的 问题 。 

在 这 个 例子 中 ， 我 们 可 以 说 “日 服 阿 斯 匹 林 ” 是 一 个 干扰 因子 。 因 此 ， 服 用 与 不 服用 阿 斯 
匹 林 的 人 群 不 是 随机 分 布 的 ， 从 图 中 看 来 ， 这 甚至 导致 了 因果 关系 推断 的 方向 都 发 生 了 


改变 。 












































这 里 如 果 你 的 目的 是 预测 ， 那 么 一 条 如 图 11-3 那样 的 拟 合 曲线 完全 可 以 满足 预测 的 要 求 ， 
而 且 预 测 效果 可 能 还 相当 不 错 。 当 我 们 的 任务 是 因果 推断 时 ， 故 事 因此 发 生 了 根本 性 的 改 
变 ， 我 们 不 能 苟同 于 那 条 最 佳 拟 合 直线 ， 因 为 很 明显 直线 的 方向 与 真实 因果 关系 的 方向 是 
Fej x ACA. 


上 面 的 情况 在 对 观察 性 数据 进行 回归 分 析 时 是 极为 常见 的 。 如 果 数 据 维度 很 高 ， 你 根本 不 
可 能 知道 数据 内 部 到 底 发 生 了 什么 。 正 如 Madigan 所 形容 的 ， 面 对 高 维度 的 数据 ,“ 那 简 
直 就 是 西部 莹 野 ， 我 们 对 其 一 无 所 知 ”。 


情况 也 有 可 能 是 这 样 ， 在 是 否 “日 服 阿 司 匹 林 ” 的 两 个 类 别 中 还 有 性 别 的 分 类 ， 如 果 再 按 
此 分 类 ， 你 可 能 又 会 得 到 与 最 佳 拟 合 直线 一 致 的 结论 : 服用 剂量 越 大 ， 犯 心脏 病 概率 越 
小 。 这 种 分 组 因素 对 因果 关系 推断 的 方向 性 的 影响 称 作 辛普森 悖 论 ， 它 在 因果 推断 中 有 着 
重要 的 作用 ， 督 促 人 们 考虑 可 能 的 、 会 引起 因果 关系 转向 的 类 别 因 素 。 



























































11.5.2 ”和 鲁 宾 因果 关系 模型 
鲁 宾 因 果 关 系 模 型 是 一 个 数学 模型 ， 在 观察 性 研究 中 用 来 确认 哪 部 分 信息 是 可 知 的 ， 哪 部 
分 是 未 
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和 鲁 宾 模型 可 以 用 来 回答 这 一 类 的 问题 :“ 我 患 癌 的 原因 是 因为 我 曾经 有 烟 阁 。” 你 确定 吗 ? 
如 果 确 信 ， 你 要 能 够 提供 证 据 支 持 这 个 论断 。 另 外 一 个 发 问 的 方式 是 :“ 如 果 我 曾经 不 抽 
烟 ， 我 就 不 会 得 肺癌 。” 这 是 一 个 很 有 意思 的 发 问 方式 ， 但 现 有 的 研究 方法 还 不 能 回答 这 
样 的 问题 。 



































定义 之 为 对 个 体 ; 进行 的 实验 (0 = 控制 组 ，1 = 实验 组 )， yO 为 实验 组 的 结果 (Z = 
1), Y (0) 为 控制 组 的 结果 (Z = 0). 





我 们 所 关心 的 个 体 层 面 上 的 因果 关系 (unit level causal effect) 就 是 了 (D 一 了 (0)。 但 是 ， 
XEF YO) Y (0) 我 们 不 可 能 同时 观测 到 了 可 能 的 两 个 值 。 


用 一 个 例子 来 说 明 : 假设 我 本 人 为 研究 个 体 i， 如 果 抽 烟 则 Q = 1， 否 则 为 0。 如 果 抽 烟 并 
BIBE, NU Y) = 1， 而 如 采 抽 烟 但 未 患 肺癌 ， 则 Y) = 0。 同 样 的 ，Y(1) 为 1 或 0， Hx 
决 于 我 不 抽烟 时 是 否 患 肺 癌 。 抽 烟 对 患 肺癌 的 总 体 因果 影响 是 (1) 一 (0)。 如 果 确 实 由 
于 抽烟 而 患 肺癌 ， 它 是 1; 不 管 抽 不 抽烟 ， 如 果 患 肺癌 (或 者 不 患 ) 都 为 0， 如果 抽烟 但 
没 患 肺癌 ， 则 为 -1。 然 而 ， 由 于 我 只 可 能 知道 其 中 一 种 结果 ， 世 (GD) — Y (0) 的 值 无 法 直接 
计算 得 到 。 


在 总 体 的 层面 ， 我 们 知道 有 多 少 人 为 1。 但 是 从 样本 的 角度 来 看 ， 我 们 不 能 随便 将 1 这 个 
ERREZA ( 即 我 们 不 可 能 选择 某 人 ， 使 他 /她 主动 经 历 抽 烟 及 癌症 )。 


这 个 问题 也 称 作 “ 因 有 果 关系 推断 的 基本 问题 ”。 



















































































11.5.3 ”因果 关系 的 可 视 化 


我 们 可 以 利用 因果 关系 图 来 呈现 因果 关系 建 模 的 概念 。 





首先 ， 用 歼 表 示 所 有 法 在 的 干扰 因子 。 这 个 假设 通常 是 很 难 站 得 住 脚 的 ， 尤 其 是 在 流行 学 
的 相关 研究 实例 中 ， 准 在 干扰 因子 的 个 数 基本 不 可 能 完全 确定 。 关 于 流行 病 学 研究 ， 会 在 
在 下 一 章 做 详细 介绍 。 


在 关于 Frank 在 线 约会 的 例子 中 ， 我 们 找 出 了 一 个 六 在 的 扰乱 因子 (他 中 意 的 女性 本 身 是 
否 漂 亮 )。 如 果 萎 虑 得 更 加 深入 ， 我 们 当然 还 可 以 发 现 更 多 的 干扰 因子 ， 如 Frank 本 身 是 否 
是 个 帅哥 ， 或 者 他 最 近 心 情 不 好 ， 等 等 。 这 些 因素 都 会 影响 到 他 写 邮件 的 方式 〈 措 辞 、 语 
调 等 ) 以 及 对 方 积极 回复 的 可 能 性 。 



































A. TRITT 4 表示 实验 的 处 理 。 在 这 里 指 是 时 Frank 是 否 在 搭 训 邮 件 中 使 用 了 “漂亮 ” 
一 词 。 我 们 通常 假设 4 是 二 元 的 〈 即 具有 0/1 的 值 )。 因 此 ， 对 于 Frank 搭 训 的 女士 ， 如 果 
Frank 使 用 了 “漂亮 ”一 词 ， 我 们 给 她 赋值 1。 但 这 里 需要 注意 的 时 ， 即 便 Frank 用 “ 漂 
亮 ”形容 的 是 今天 的 天 气 ， 仍 给 该 女士 赋值 1。 也 就 是 说 ， 我 们 在 这 里 不 考虑 “漂亮 ”一 
次 出 现 的 具体 语 境 ， 只 要 在 邮件 中 出 现 ， 一律 赋值 为 1。 
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用 了 表示 实验 的 “结果 ”， 它 同样 是 一 个 二 元 值 ， 只 取 0/1。 对 “结果 ”的 定义 要 十 分 明 
确 。 比 如 我 们 定义 ， 在 OK Cupid 的 平台 内 ， 如 果 Frank 在 发 送 第 一 封 邮件 的 一 周 内 收 到 
了 该 女士 的 回复 ，Frank 在 邮件 中 向 对 方 索 要 了 电话 号 码 ， 并 且 该 女士 在 回复 的 邮件 中 提 
供 了 自己 的 电话 号 码 ， 我 们 则 将 1 赋 给 了。 另外 还 注意 ， 如 果 一 位 女士 没 看 到 Frank 的 邮 
件 ， 但 由 于 其 他 一 些 原 因 还 是 通过 邮件 把 电话 号 码 告知 了 Frank， 我 们 仍 会 给 了 赋值 1。 















































因果 关系 图 中 的 干扰 因子 ， 实 验 的 “处 理 ” 和 实验 的 “结果 ”都 用 节点 表示 ， 用 箭头 表示 
因果 关系 的 方向 。 换 句 话 说， 箭头 的 出 发 节点 是 因果 关系 的 “ 因 ”， 而 所 指向 的 是 “有 果 。 





Frank 的 例子 可 以 表示 为 图 11-5, 








图 11-5: 一 个 实验 “处 理 *”， 一 个 干扰 因子 和 一 个 实验 “结果 ”的 因果 关系 图 ， 对 应 Frank 的 例子 























在 OK Cupid 的 案例 中 ， 因 果 关 系 图 十 分 简单 ， 只 包含 一 个 实验 “处 理 ”， 一 个 干扰 因子 及 
一 个 实验 “结果 ”。 在 实际 问题 中 ， 因 果 图 会 变 得 非常 复杂 。 























11.5.4 定义 : 因果 关系 

假设 实验 共有 100 个人， 实验 的 处 理 是 服用 “ 某 种 药物 ”， 实 验 的 结果 是 “ 患 癌 ” 与 否 。 
实验 的 最 终结 果 显 示 共 有 30 人 患 癌 ， 这 意味 着 患 癌 率 为 0.3。 因 果 推 断想 要 回答 的 问题 
是 : 服用 该 药物 是 否 导致 了 乌 患 该 癌症 ? 





为 了 回答 这 样 一 个 因果 推断 的 问题 ， 从 逐 辑 上 来 说 ， 我 们 需要 知道 ， 如 果 没 有 服用 该 药 
W, 会 有 多 少 人 患 癌 。 假 设 对 于 同样 的 100 个 人 的 群体 ， 我 们 规定 他 们 不 服用 该 药物 (也 
许 我 们 是 上 帝 ， 但 即便 上 帝 这 么 做 也 是 不 道德 的 ， 人 都 有 生命 健康 权 )。 最 终 的 结果 是 ， 
患 癌 的 总 人 数 减少 到 20 人 ， 患 癌 率 为 0.2。 我 们 用 两 种 情形 下 患 癌 率 的 差 值 表示 实验 “处 
理 ” 对 实验 “结果 ”的 因果 影响 值 。 在 这 里 ， 因 果 关 系 的 影响 值 为 0.3 - 0.2 = 0.1。 















































地 
a; 有 时 候 因 果 关 系 的 影响 值 也 可 以 用 比率 值 表 示 ， 而 不 一 定 是 差 值 。 
int 





然而 ， 我 们 并 非 上 帝 ， 不 能 让 同一 批 人 接受 药物 “处 理 ” 的 同时 还 可 以 用 作 控 制 组 。 现 实 
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的 情况 是 ， 他 们 要 么 在 实验 组 ， 要 么 在 控制 组 。 因 此 ， 我 们 需要 一 个 独立 的 控制 组 ， 在 该 
组 内 的 人 们 不 服用 此 药物 。 假 设 这 个 控制 组 中 人 们 患 癌 的 概率 为 0.1 (可 以 理解 为 人 们 自 
然 患 癌 概 率 )。 那 么 ， 通 过 它 ， 我 们 可 以 计算 出 由 于 服用 该 药物 而 导致 的 癌症 率 实际 上 提 
高 了 20%。 但 这 个 结论 往往 是 站 不 住 脚 的 ， 因 为 实验 组 与 控制 组 总 有 一 些 不 同 质 的 地 方 我 
们 没有 考虑 到 “。 


如 果实 验 组 和 控制 组 的 两 批 人 是 完全 同 质 的 (这 在 生物 学 上 基本 是 不 可 能 的 )， 所 有 的 干 
扰 因 子 都 可 以 被 排除 。 但 是 ， 就 像 我 们 说 过 的 ， 也 许 上 帝 可 以 做 到 ， 但 是 我 们 做 不 到 。 


因此 ， 对 于 观察 性 数据 来 说 ， 最 重要 的 莫 过 于 确定 如 何 把 样本 分 成 实验 组 和 控制 组 。 倾 向 
性 得 分 匹配 法 就 是 最 为 著名 的 方法 。 从 本 质 上 来 讲 ， 倾 向 性 得 分 法 是 一 种 伪 随 机 分 组 法 
(pseudo-random experiment) ， 人 为 控制 组 的 分 类 原则 是 尽量 选择 与 实验 组 总 体 特征 特别 相 
像 的 个 体 〈 这 些 个 体 以 同样 的 概率 出 现在 实验 组 和 控制 组 中 )。 有 具体 该 怎么 做 呢 ? 注意 前 
面 提 到 的 “特别 相像 ”的 概念 ， 有 很 多 方法 可 以 找到 相像 的 个 体 ， 罗 辑 回归 是 其 中 较为 常 
见 的 方法 。 


倾向 性 得 分 匹配 法 分 为 两 个 步骤 。 第 一 步 是 用 逻辑 回归 计算 每 个 人 接受 实验 “处 理 ” 的 概 
率 ; 然后 我 们 将 接受 实验 与 未 接受 实验 的 人 匹配 起 来 。 其 实 ， 被 分 在 “ 伪 控 制 组 ”的 个 体 
具有 同等 的 可 能 性 被 分 在 “ 伪 实 验 组 ， 只 是 实际 上 没有 而 已 。 第 二 步 就 是 假设 样本 已 经 
被 分 成 了 实验 组 与 控制 组 ， 可 以 应 用 常规 随机 实验 的 分 析 方法 ， 分 析 分 组 之 后 的 数据 。 


例如 ， 如 果 我 们 想 要 研究 抽烟 对 患 肺癌 的 影响 ， 由 于 观察 性 研究 的 限制 ， 我 们 需要 尽量 找 
出 (或 者 观察 到 ) 有 同样 抽烟 可 能 性 的 人 。 因 此 ， 能 够 搜集 到 的 个 人 信息 越 多 越 好 : 包括 
性 别 、 年 龄 、 父 母 是 否 抽 烟 、 配 偶 是 否 抽 烟 、 体 重 、 饮 食 习 惯 、 运 动 习惯 、 一 周 工作 的 小 
时 数 、 血 该 检测 结果 等 。 第 一 步 的 逻辑 回归 模型 ， 了 变量 是 个 体 是 否 抽烟 。 逻 辑 回 归 模型 
可 以 根据 个 体 的 体征 输出 个 体 抽烟 的 概率 值 。 这 些 概率 值 就 是 每 个 个 体 的 倾向 性 得 分 ， 得 
分 值 的 作用 是 为 了 匹配 样本 ， 以 尽量 保证 分 组 的 同 质 性 。 这 里 我 们 假设 所 有 的 个 体 特征 变 
量 都 是 可 以 观测 到 的 ， 但 事实 上 ， 对 某 些 变量 的 观测 和 样本 收集 会 比较 困难 。 
这 也 是 倾向 性 得 分 匹配 的 先天 性 缺陷 ,我 们 永远 无 法 确信 已 经 翘 虑 到 了 所 有 该 考虑 的 因 


X 
素 。 然 而 ， 它 的 优越 性 在 于 ， 如 果 可 能 的 干扰 因子 都 能 被 考虑 到 ， 那 么 在 倾向 性 评分 匹配 
模型 背景 下 的 因果 关系 推断 是 合理 和 有 效 的 。 








































































































复杂 的 数据 和 复杂 的 因果 推断 问题 ， 也 对 应 复杂 的 倾向 性 得 分 匹配 方案 。 一 些 关 于 倾向 性 
得 分 模型 的 程序 包 也 设计 得 很 好 ， 很 多 匹配 都 可 以 自动 化 地 完成 ， 使 用 者 不 需要 关注 太 多 
细节 。 当 然 ， 使 用 何 种 模型 计算 倾向 性 得 分 ， 以 及 该 模型 中 的 了 变量 (要 与 相应 的 因果 推 
断 对 应 ) 还 是 需要 使 用 者 自行 设 定 的 ， 除 此 之 外 的 事情 都 很 具体 化 。 





























注 1: 指 的 就 是 干扰 因子 的 影响 。 
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在 之 前 的 约会 例子 中 ， 我 们 需要 用 什么 样 的 数据 来 估计 因果 关系 呢 ? 一 种 办 法 是 用 类 似 土 
耳 其 机 器 人 这 样 的 工具 ， 人 工 浏 览 所 有 收 到 Frank 邮件 的 女士 的 资料 ， 并 且 将 长 得 漂亮 的 
标记 出 来 。 这 样 我 们 就 可 以 直接 推断 收 件 人 本 身 是 否 “ 漂 亮 ” 这 个 扰乱 因子 对 分 析 结 果 的 
影响 。 这 在 因果 推断 研究 中 叫 作 分 层 法 ， 下 一 章 会 详细 论 及 。 该 方法 虽然 有 效 ， 但 是 也 会 
HRAD 


11.6 三 个 小 建议 
关于 建 模 ，Ori 与 大 家 分 享 了 三 个 小 建议 。 


第 一 ， 当 进行 因果 推断 时 ,深入 地 了 解数 据 的 生成 过 程 至 关 重要 。 因 为 任何 模型 都 会 有 相 
应 的 模型 假设 ， 数 据 本 身 的 数据 生成 过 程 可 能 会 明显 背离 这 些 假设 。 如 果 假设 明显 不 符合 
数据 的 生成 模型 ， 那 模型 的 使 用 就 应 该 打上 问号 。 




















第 二 ， 数 据 分 析 的 第 一 步 应 该 置身 数据 之 外 ， 弄 清楚 到 底 想 要 分 析 的 问题 是 什么 。 可 以 把 
问题 写 下 来 ， 这 会 帮助 你 思 芳 ， 然 后 再 一 步 一 步 地 思考 使 用 什么 样 的 工具 解决 这 些 问 题 。 
在 使 用 工具 分 析 数 据 的 过 程 中 ， 要 不 时 地 回头 想 想 当初 想 要 回答 的 问题 ， 以 及 正在 做 的 
事情 是 不 是 在 正确 的 轨道 上 。 这 上 听 起 来 很 有 道理 ， 也 稀 松 平常 ， 但 人 们 往往 都 会 忘 了 这 人 么 


做 ， 忘 记 了 自己 分 析 问 题 的 初 囊 。 


最 后 ， 当 你 运用 算法 分 析 数 据 时 ， 不 要 被 算法 和 代码 冲 氏 了 头脑 。 不 要 以 为 只 要 算法 收 
你 ， 模 型 参数 估计 显著 就 一 切 大 吉 了 。 在 数据 分 析 时 ， 要 时 刻 保 持 一 颗 请 醒 的 头脑 ， 人 脑 
可 以 发 现 电脑 所 不 能 发 现 的 逻辑 性 的 、 常 识 性 的 错误 ， 人 也 应 该 在 数据 分 析 中 扮演 主导 型 
的 角色 。 
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本 章 的 贡献 者 是 David Madigan 教授 ， 他 是 哥伦比亚 大 学 统计 学 院 院 长 。Madigan 的 研究 
领域 包括 贝 叶 斯 统计 、 文 本 分 析 、 蒙 特 卡 洛 模拟 方法 、 药 物 警 戒 系 统 、 概 率 图 模型 等 。 在 
这 些 领域 ， 他 发 表 了 不 下 于 100 篇 学 术 文章 。 


12.1 Madigan 的 学 术 背 景 


Madigan 1980 年 毕业 于 都 柏林 三 一 学 院 (Trinity College Dublin) 。 他 本 科 主 修 数 学 ， 但 在 
最 后 一 学 年 选修 了 一 些 统计 学 的 课程 ， 并 且 自 学 了 一 些 关 于 计算 机 的 知识 ， 包 括 Pascal 
语言 、 操 作 系统 、 编 译 器 、 人 工 智 能 、 数 据 库 理论 等 。 大 学 毕业 后 ，Madigan 先后 就 职 
于 一 家 保险 公司 和 一 家 软件 公司 ， 前 前 后 后 干 了 6 年。 期 间 他 的 主要 工作 是 对 专家 系统 
(expert system) 进行 研究 。 


那个 时 候 ， 个 人 计算 机 还 没有 问世 ， 编 程 都 是 通过 脚本 语言 在 大 型 计算 机 上 实现 的 。 
Madigan 在 保险 公司 工作 的 时 候 ， 主 要 从 事 保险 产品 定价 策略 方面 的 编程 工作 。 另 外 ， 他 
之 前 还 做 过 一 个 污水 处 理 系统 的 项 目 ， 并 且 学 了 一 些 可 视 化 方面 的 知识 。 他 知道 如 何 利用 
计算 机 上 的 显卡 进行 编程 ， 但 是 对 于 数据 ， 他 那个 时 候 还 接触 得 很 少 。 


工作 了 几 年 之 后 ， 他 回 到 了 都 柏林 三 一 学 院 完 成 了 博士 学 位 。 博 士 毕业 之 后 ， 他 选择 进入 
学 术 界 ， 并 且 在 华盛顿 大 学 获得 了 终身 教授 的 职位 。 那 个 时 候 ， 机 器 学 习 和 数据 挖掘 方 兴 
未 艾 ， 他 很 快 就 对 这 两 个 研究 方向 产生 了 强烈 的 兴趣 。 他 之 前 还 担任 过 KDD 数据 竞赛 的 

会 主席 。 此 间 他 学 会 了 使 用 C、Java、R 和 S+ 编程 。 但 是 即便 是 当 了 教授 之 后 ， 他 还 是 
很 少 和 实际 的 数据 打交道 。 
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他 说 ， 在 刚 开始 他 是 一 个 典型 的 学 者 : 知道 如 何 编程 ， 却 在 接触 到 一 个 大 型 的 医疗 数据 时 
不 知道 从 何 做 起 。 因 为 当时 这 个 医疗 数据 包括 50 个 从 不 同 数据 库 中 收集 的 不 同 格式 的 数 
据 ， 面 对 这 样 的 数据 Madigan 当时 一 筹 莫 展 。 


在 2000 年 的 时 候 ， 他 去 AT&T 实验 室 工作 了 一 段 时 间 。 据 他 描述 ，AT&T 实验 室 的 研究 
环境 是 完全 学 术 化 的 ， 他 在 那里 学 习 了 Perl 语言 、awk 语言 和 一 些 Unix 的 基本 知识 。 他 
甚至 还 做 了 很 多 网 络 检索 方面 的 工作 。 


在 那 之 后 ， 他 选择 了 自己 创业 一 一 和 朋友 一 起 成 立 了 一 家 互联 网 公司 。 该 公司 的 主要 产品 
是 一 款 消费 者 活动 实时 可 视 化 系统 。 


创业 的 经 历 给 了 Madigan 很 多 分 析 大 型 医疗 数据 的 机 会 。 他 曾 在 不 少 医疗 纠纷 的 审讯 中 出 庭 
作证 ， 向 法 官 提供 医疗 实验 数据 的 分 析 结 果 。 他 说 ， 做 这 些 工作 让 他 在 数据 解释 的 问题 上 大 
开 有 眼界:“ 把 逻辑 回归 解释 给 法 官 听 ， 比 我 在 这 里 给 你 们 讲课 要 还 要 难 上 加 难 。 那 是 一 种 完全 
不 同 的 、 全 新 的 挑战 。 Madigan 觉得 ， 简 洁 明 了 的 可 视 化 对 解释 分 析 结 果 确 实 有 很 大 帮助 。 


12.2 ”思维 实验 

假设 我 们 手头 有 一 套 详 细 的 医疗 诊断 数据 。 这 套数 据 是 关于 每 个 人 的 医疗 历史 的 详细 记 
录 (统计 学 中 称 作 纵向 数据 )。 样 本 量 大 约 为 8000 万 个 病人 ， 数 据 记录 的 内 容 包 括 每 位 病 
人 的 处 方药 单 、 每 次 看 病 的 检查 结果 、 每 一 次 医院 或 者 医生 家 访 的 检查 结果 、 手 术 的 数据 
等 。 每 条 记录 发 生 的 时 间 都 有 详细 的 记录 。 面 对 这 样 庞 大 的 数据 ， 我 们 能 干 些 什 么 呢 ? 


从 现实 情况 来 看 ， 我 们 还 在 延续 着 中 世纪 以 来 的 传统 ， 医 生 对 这 些 数据 充 耳 不 闻 ， 看 病 只 
依赖 于 自己 的 主观 判断 。 但 是 我 们 是 否 能 够 做 得 更 好 一 些 呢 ? 这 些 数 据 能 否 带 来 更 好 地 医 
疗 保健 体验 呢 ? 


这 其 实 是 一 个 非常 重要 的 全 民 医 疗 问 题 。 而 对 于 医疗 保险 公司 来 说 ， 充 分 合理 地 利用 好 这 
样 的 数据 至 关 重 要 。 一 个 感 兴趣 的 方向 是 ， 如 果 在 需要 住院 之 前 ， 医 生 能 够 及 时 地 介入 病 
人 的 治疗 ， 这 必 将 节省 大 量 的 医疗 资源。 要 实现 这 个 目标 ， 是 需要 大 数据 做 分 析 支 撑 的 。 


Kaggle 之 前 有 一 个 关于 医疗 数据 的 分 析 竞 赛 ， 竞 赛 的 题目 叫 作 “Improve Healthcare, Win 
$3 000 000”(“ 改 善 医疗 保健 ， 赢 得 300 万 美元 ”)。 该 竞赛 的 题目 要 求 参 赛 者 能 够 准确 地 
预测 人 们 在 第 二 年 是 否 需 要 看 病 。 当 然 ， 由 于 隐私 问题 ， 实 际 竞 赛 数据 中 关于 个 人 隐私 的 
数据 都 被 舍 去 了 。 


涉及 公民 个 人 隐私 的 数据 如 果 被 非法 使 用 ， 会 产生 相当 严重 的 后 果 。 比 如 说 ， 不 法 分 子 可 以 
从 数据 中 找到 那些 有 钱 的 病人 ， 并 想方设法 敲诈 他 们 。 不 良 的 保险 公司 可 能 会 利用 这 个 数据 
找到 那些 医疗 风险 大 的 人 ， 取 消 与 他 们 的 保险 合约 。 这 些 既 是 法 律 问 题 ， 又 是 道德 问题 。 在 
涉及 大 量 个 人 隐私 信息 的 数据 的 使 用 上 ， 我 们 既 要 恪守 道德 标准 ， 也 不 能 触犯 法 律 的 红线 。 
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12.3 统计 学 在 现代 


想象 一 下 ， 就 在 20 年 前 ， 统 计 学 研究 在 学 术 界 是 一 番 怎 样 的 光景 ?统计 学 家 要 么 坐 在 办 
公 室 里 证 明 各 种 各 样 的 定理 ， 要 么 在 构思 某 种 新 的 假设 检验 的 方法 ， 或 者 是 缺失 值 处 理 的 
方法 。 他 们 根本 不 会 、 也 不 需要 跟 数 据 打交道 。 学 术 界 的 统计 学 与 实际 的 数据 分 析 是 脱节 
的 ， 统 计 学 也 不 需要 领域 专家 的 帮助 ， 统 计 学 家 就 只 沉浸 在 自己 的 小 世界 里 。 




















现在 的 统计 学 研究 已 经 发 生 了 本 质 的 变化 。 顶 级 的 统计 学 杂志 开始 看 重 统计 在 实际 问题 上 的 
应 用 。 如 果 论 文 是 社会 科学 家 (或 者 很 多 其 他 应 用 科学 家 们 ) 与 统计 学 家 一 起 合作 的 成 果 ， 
往往 都 很 受 欢迎 。Madigan 也 指出 ， 在 医学 研究 领域 ， 统 计 学 家 正在 扮演 越 来 越 重要 的 角色 。 





























Madigan 觉得 现在 的 机 器 学 习 在 学 术 界 的 发 展 情况 十 分 类 似 于 20 年 前 的 统计 学 。 机 器 学 
习 是 一 个 新 的 学 术 研究 领域 ， 学 术 会 议 的 发 展 也 已 经 比较 成 熟 ， 但 是 作为 机 器 学 习 界 的 一 
F, Madigan 还 是 觉得 它 仍 未 脱离 当初 统计 学 家 们 闭门造车 的 风格 ， 大 家 都 在 绞 尽 脑汁 开 
发 新 的 算法 ， 并 千方百计 地 找 数据 验证 这 些 算法 。Madigan 觉得 ， 机 器 学 习 的 发 展 如 果 不 
与 其 他 应 用 领域 结合 起 来 ， 很 难 有 长 足 的 进步。 

Madigan 指出 ， 现 在 很 多 的 统计 学 家 都 不 注重 提高 自己 解决 实际 问题 的 能 力 ， 然 而 现实 世 


界 的 发 展 已 经 对 统计 学 家 提出 了 更 为 实际 的 新 要 求 。( 当 然 ，Madigan 的 同事 Mark Hansen 
是 一 个 明显 的 反例 )。 


12.4 医学 文献 与 观察 性 研究 

观察 性 研究 的 内 容 我 们 在 上 一 章 已 经 讨论 过 ， 它 是 统计 学 中 的 一 个 十 分 重要 的 研究 方法 ， 
也 是 医学 研究 的 标准 方法 之 一 。 观 察 性 研究 的 结果 对 于 医学 培训 、 临 床 以 及 政府 的 医药 智 
力 起 着 举足轻重 的 作用 。 























比如 说 ，Jane Green 等 人 有 一 篇 合 车 的 论文 ， 题 为 “口服 磷酸 双 酯 提高 患 食管 癌 、 胃 癌 
和 大 肠 直肠 癌 的 风险 : 基于 英国 初级 医保 数据 的 病例 对 照 分 析 研究 ”( 参 见 http://1.usa. 
gov/16UfNjZ)。Madigan 看 完 这 篇 论文 后 总 结 说 : 这 篇 论文 处 理 的 问题 与 当初 对 阿司匹林 
的 研究 一 样 ， 就 是 干扰 因子 的 问题 。 该 论文 的 结论 是 ， 口 服 双 腾 酸 盐 显 闭 地 提高 了 患 这 些 
癌症 的 风险 ， 提 高 的 幅度 起 码 达 到 了 10%。 

这 篇 文章 刊登 在 《纽约 时 报 》 某 期 的 首页 , 研究 者 是 几 个 没有 利益 冲突 的 学 者 ,研究 的 样 
本 来 自 数 以 百 万 计 的 患者 服药 数据 。 但 即便 是 这 样 ， 其 研究 结论 也 很 可 能 是 错误 的 ， 并 且 
之 后 的 研究 成 果 也 很 可 能 推翻 这 一 结论 。 












































注 1: 没有 利益 冲突 代表 作者 互相 之 间 没 有 利益 瓜葛 ， 既 没有 侵权 也 没有 利益 瓜分 之 嫌 ， 因 此 研究 的 结果 较 
为 可 信 。 
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这 样 的 例子 还 有 很 多 很 多 。 这 其 中 是 一 个 设 有 引起 人 们 足够 重视 ， 却 又 十 分 重要 的 问题 。 


政府 每 年 在 医药 研究 上 都 会 花 去 大 笔 的 金钱 ， 因 为 医药 研究 的 结论 会 关系 着 无 数 人 的 生命 
健康 。 因 此 ， 我 们 必须 在 正确 的 理论 指导 下 ， 做 严肃 的 医药 研究 。 


12.5 分 层 法 不 解决 干扰 因子 的 问题 

流行 病 学 研究 是 一 个 与 干扰 因子 做 斗争 的 过 程 。 但 是 可 惜 的 是 ， 现 有 的 流行 病 统计 学 的 研 
究 方 法 还 不 能 很 好 地 解决 这 个 问题 。 其 中 最 常 使 用 的 方法 是 分 层 法 。 举 个 例子 来 说 ， 如 果 
我 们 觉得 性 别 是 可 能 的 干扰 因子 ， 在 研究 的 时 候 就 按照 性 别 把 样本 分 成 两 层 ， 并 在 分 析 的 
时 候 根 据 不 同性 别 样本 的 权重 调整 估计 值 的 结果 。 

然而 ， 当 实验 的 结果 中 数值 比较 小 ， 或 者 不 同 层 总 体 之 间 差 异 显著 时 ， 分 层 法 会 影响 因果 
分 析 的 有 效 性 。 


表 12-1 是 某 实 验 结果 的 汇总 表 ， 我 们 用 这 个 表 举 一 个 例子 。 







































































表 12-1: 某 实验 汇总 表 
实验 组 : 已 服药 实验 组 : 反 事实 对 照 组 : 反 事实 对 照 组 : 未 服药 


天 1 30 20 30 20 
Y-0 70 80 70 80 
P(Y21) 0.3 0.2 0.3 0.2 


从 表 中 可 以 得 出 ， 该 实验 的 实验 组 和 对 照 组 的 人 数 均 为 100 人 ， 表 中 间 的 两 列 实际 上 是 不 
可 观测 的 。 由 汇总 表 的 结果 可 以 得 到 ， 因 果 关 系 效 果 值 为 0.3 - 0.2 = 0.1， 也 就 是 10%. 


然而 ， 当 我 们 按照 性 别 将 汇总 表 成 两 个 子 表 之 后 ， 问 题 就 来 了 ， 尤 其 是 当 这 些 表 中 出 现 很 
多 很 小 的 数目 的 时 候 。 分 层 之 后 的 男性 子 表 见 表 12-2， 女 性 子 表 见 表 12-3。 


表 12-2: 分 层 结 果 : 男性 子 表 








实验 组 : 已 服药 实验 组 : 反 事 实 对 照 组 : 反 事 实 对 照 组 : 未 服药 
Y=1 15 2 5 5 
Y-0 35 8 65 15 
P (Y=1) 0.3 0.2 0.07 0.25 


表 12-3: 分 层 结 果 : 女性 子 表 
实验 组 : 已 服药 实验 组 : 反 事 实 对 照 组 : 反 事实 对 照 组 : 未 服药 





Y-1 15 18 25 15 
Y-0 35 72 5 65 
P (Y-1) 0.3 0.2 0.83 0.1875 





由 表 12-2 得 知 ， 男 性 的 因果 关系 效果 值 为 0.3 - 0.25 = 0.05， 而 表 12-3 告诉 我 们 相应 女性 
的 因果 关系 效果 值 为 0.3 - 0.187 5 = 0.112 5。 最 后 的 研究 报告 可 能 会 宣称 该 药物 对 女性 的 
效果 是 男性 的 两 倍 多 。 
换 名 话说， 分 层 的 想法 有 时 候 不 仅 没 有 解决 问题 ， 反 而 带 来 了 很 多 新 的 问题 : 因果 关系 的 
估计 结果 往往 变 得 扑朔迷离 。 因 此 ， 当 你 在 解决 干扰 因子 问题 时 ， 至 于 到 底 该 不 该 用 分 层 
法 ， 需 三 思 而 后 行 。 












































人 们 在 实证 中 到 底 如 何 处 理 干扰 因子 的 问题 

虽然 说 分 层 法 存在 一 些 潜 在 的 问题 ， 但 是 在 实际 分 析 中 ， 分 层 法 仍然 是 使 用 最 多 、 应 用 最 
广泛 的 方法 。 对 于 明显 的 或 潜在 的 干扰 因子 ， 都 可 以 针对 该 因子 变量 将 样本 分 层 再 做 分 
析 ， 或 者 针对 该 因子 做 一 些 模型 层面 的 调整 〈 比 如 上 一 章 详细 讨论 过 的 “倾向 评分 匹配 
法 ”)。 因 此 ， 如 果 我 们 觉得 某 实 验 中 ， 服 用 阿司匹林 是 一 个 干扰 因子 ， 那 么 可 以 针对 该 因 
子 将 样本 分 层 以 排除 该 因子 对 因果 关系 推断 的 影响 。 


这 里 有 一 个 有 趣 的 例子 (httpz//goo.gl/3VgRiO) : 某 项 实验 的 目的 是 研究 口服 避孕 药 与 静 
脉 血栓 的 关系 。 研 究 人 员 在 实验 中 考虑 了 一 些 他 们 认为 可 能 的 干扰 因子 ， 并 得 出 了 以 下 
结论 : 
































在 调整 了 人 们 服药 长 度 的 可 能 影响 之 后 ， 实 验 的 结果 显示 口服 避孕 药 的 女性 患 静 
脉 血栓 的 几率 是 不 服用 口服 避孕 药 女 性 的 两 倍 。 


该 研究 的 结果 曾经 艇 动 一 时 ， 美 国 广 播 公司 对 此 也 有 过 报道 。 但 是 ， 该 实验 的 研究 人 员 在 
考虑 和 干扰 因子 的 时 候 显 得 有 些 不 走 寻 常 路 。 按 理 说 ， 是 否 服用 其 他 药物 ， 比 如 阿司匹林 这 
样 的 常用 药 ， 应 该 是 一 个 明显 的 干扰 因子 。 因 此 ， 即 便 分 层 法 可 以 在 一 定 程 度 上 解决 干扰 
因子 的 问题 ， 但 是 应 该 如 何 选取 干扰 因子 却 是 一 个 令 人 头疼 的 问题 。 另 外 一 项 研究 中 ， 研 
究 人 员 将 实验 对 象 的 静脉 血栓 史 作 为 干扰 因子 ， 得 到 了 完全 不 同 的 结果 。 


这 个 例子 告诉 我 们 ， 干 扰 因 子 的 选择 对 实验 结果 有 着 直接 影响 ， 选 择 不 同 的 干扰 因子 ， 得 
出 的 结果 可 能 有 天 坏 之 别 。 和 譬如 之 前 的 口服 磷酸 双 酯 的 研究 课题 ， 研 究 人 员 选 择 了 吸烟 与 
否 、 饮 酒 与 否 以 及 BMI 这 样 的 干扰 因子 。 但 是 如 果 另 外 一 个 研究 选取 另 一 批 干扰 因子 ， 得 
到 的 结果 可 能 大 相 径 庭 。 从 这 一 点 来 看 ， 处 理 干 扰 因 子 是 一 个 无 解 的 问题 ， 我 们 几乎 不 可 
能 把 所 有 的 干扰 因子 都 考虑 进来 。 这 是 一 个 哲学 问题 ， 而 不 是 一 个 科学 问题 。 





















































Madigan 和 几 位 合作 者 曾经 做 过 一 项 研究 ， 他 们 让 一 批 流 行 病 学 家 跟 对 同一 组 课题 设计 5 
个 实验 。 最 后 发 现 ， 这 些 设计 在 底层 环节 上 都 非常 一 致 ， 但 是 对 于 考虑 什么 样 的 干扰 因 
子 ， 每 个 人 都 自 诗 专 家 ， 并 宣称 自己 的 设计 是 最 合理 的 。 
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12.6 ”就 没有 更 好 的 办 法 吗 


我 们 无 法 直接 回答 这 个 问题 ， 但 是 可 以 给 你 一 个 很 醒 脑 的 例子 。Madigan 和 他 的 合 著者 做 
过 另外 一 项 研究 ， 他 们 选取 了 50 个 有 关 药 物 及 其 副作用 的 课题 (比如 抗生素 与 消化 道内 
出 血 的 关系 等 )。 每 个 课题 都 放 在 9 个 数据 集 上 做 接近 5000 个 不 同 的 验证 分 析 。 


比如 ， 血 管 张力 素 转 化 酶 抑制 剂 会 引起 心 怪 ， 针 对 此 课题 他 们 在 9 个 数据 库 上 做 了 接近 
5000 个 验证 分 析 。 最 小 的 数据 库 有 400 万 个 病人 的 数据 ， 而 最 大 的 一 个 数据 库 样 本 量 达 到 


了 800 万 人 。 





针对 这 一 个 例子 ， 某 一 个 数据 库 的 分 析 结果 显示 血管 张力 素 转化 酶 抑制 剂 引起 心性 的 几率 是 


对 照 组 的 3 倍 ， 而 另 一 个 数据 库 的 分 析 结果 显示 是 6 倍 。 


这 里 虽然 研究 的 结果 在 不 同 数据 库 


上 有 所 不 同 ， 但 起 码 它 们 的 指向 都 十 分 一 致 ， 那 就 是 该 药物 确实 增加 了 心 惨 发 生 的 几率 。 

















然而 ， 对 于 50 个 课题 中 的 20 个 课题 ， 在 不 同 数据 库 上 得 到 分 析 结 果 似 乎 完全 是 随机 的 。 


有 些 具有 统计 显著 4 

















生 ， 有 些 没有 。 有 些 具有 正 的 显著 性 ， 有 些 具有 人 负 的 显著 性 。 也 就 是 


说 ， 你 能 想到 的 结果 都 能 在 某 个 数据 库 的 茶 项 验证 分 析 结 条 里 找到 对 应 的 。 图 12-1 展示 了 


这 50 个 课题 的 统计 显著 性 分 布 。 刚 才 关于 心情 的 课题 位 于 该 


图 的 最 上 方 。 
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12-1. 50 个 课题 的 统计 显著 性 分 布 图 ( 另 见 彩 插图 12-1) 
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数据 库 的 选取 对 研究 的 结果 有 直接 影响 ， 但 是 现在 的 大 多 数论 文 都 对 此 条 避 
MES 


uM 








Madigan 团队 接 下 的 研究 更 加 有 说 服 力 。 他 们 详细 地 考虑 了 每 个 实验 的 性 质 和 研究 的 可 能 
性 ， 只 要 有 模 楼 两 可 的 问题 ， 那 么 所 有 的 可 能 性 都 会 考虑 进来 。 具 体 说 来 ， 他 们 考虑 了 这 
样 一 些 可 能 性 : 使 用 哪个 数据 库 ， 考 虑 哪些 干扰 因子 ， 检 查 的 时 间 窗 长 度 【比如 一 个 心脏 
病人 在 停 药 后 一 周 发 病 的 概率 和 一 个 月 发 病 的 概率 明显 会 有 所 差异 ) 等 。 




















他 们 得 到 的 结论 是 : 所 有 的 实验 结果 都 可 能 有 两 个 对 立 的 解释 | 


回 到 刚才 口服 磷酸 双 酯 的 例子 。 一 团队 的 论文 (http://1.usa.gov/16UfNjZ) 宣称 口服 磷酸 双 
酯 会 增加 患 癌 的 风险 ， 而 另外 一 篇 发 表 于 JAMA 的 论文 (http://1.usa.gov/1hi2kbj) 则 表示 
口服 磷酸 双 酯 不 会 增加 患 食管 癌 的 风险 。 他 们 分 析 的 数据 其 至 来 自 于 同一 个 数据 库 ， 却 得 
到 了 截然 相反 的 结论 。 其 实 这 样 的 研究 成 果 具 有 对 立 性 的 现象 在 医学 界 还 有 很 多 。 



































12.7 研究 性 实验 (OMOP) 


为 了 直接 解决 上 面 所 提 的 这 些 问 题 ， 或 者 说 起 码 在 一 定 程度 上 突破 现 有 研究 理论 和 方法 的 
Hi, Madigan 加 入 了 一 个 叫 作 OMOP (http://omop.org/) 的 研究 项 目 并 担任 了 首席 研究 
专家 。 他 的 使 命 是 开发 和 实现 一 些 可 以 用 作 观 测 数 据 分 析 的 新 统计 方法 。 这 套 统 计 方法 是 
OMOP 项 目的 核心 贡献 。OMOP 的 全 称 是 “Observational Medical Outcomes Partnership" , 
我 们 下 面 稍 作 介绍 。 















































关于 0MOP 


2007 年 的 时 候 ， 由 于 认识 到 电子 健康 信息 (EHR) 数据 和 其 他 大 型 的 公平 健康 数据 
规模 正 井 喷 式 地 增长 ， 这 样 的 数据 为 医药 和 人 体 健 康 方 面 的 研究 提供 了 宝贵 的 契机 ， 
国会 决定 以 FDA 罕 头 ， 打 造 一 个 新 的 医药 监 挖 项目 ,以 更 好 地 保护 公民 的 健康 安全 。 
FDA 随后 牵头 了 一 些 项 目 ， 包 斤 非 常 著名 的 Sentinerl 项 目 。 该 项 目 绷 在 搭建 一 个 全 国 
性 的 数据 网 络 。 


在 该 背景 下 ， 国 家 健康 委员 为 与 PhRMA 以 及 FDA 发 动 了 OMOP 项 目 。 该 项 目 是 典 
型 的 公私 合作 模式 。OMOP 项 目 已 经 为 业界 带 来 了 一 些 令 人 瞩目 的 研究 成 果 ， 其 中 的 
一 项 研究 成 果 确 认 了 研究 和 分 析 超 大 型 同 质 性 数据 的 流程 和 方法 。 

OMOP 项 目的 贡献 者 来 自 于 流行 病 学 、 统 计 学 、 计 算 科 学 以 及 许多 别 的 学 科 。 他 们 通 
力 合作 ， 只 为 了 回答 下 面 这 些 问 题 : 医药 研究 者 能 从 这 些 大 型 健康 数据 中 得 到 哪些 有 
用 的 信息 ?有 没有 一 个 普 适 的 流程 和 方法 可 以 用 来 研究 和 分 析 不 同 数据 库 的 数据 ? 研 
完 的 结果 能 不 能 被 很 好 地 验证 ? 
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如 果 对 上 述 问 题 的 回答 都 是 肯定 的 ， 那么 这 将 为 医药 和 健康 研究 领域 带 来 翻天 得 地 的 
变化 。 从 长 远 来 看 ， 整 个 国家 的 医疗 系统 以 及 医疗 监管 系统 也 将 发 生 质 的 变化 ， 人 们 
的 健康 安全 将 得 到 更 好 的 保障 。 














Madigan 和 他 得 团队 选取 了 10 个 大 型 医疗 数据 库 ， 这 些 数据 库 来 自 于 保险 公司 和 EHR 等 
机 构 ， 涵 盖 了 大 约 两 亿 人 的 资料 。 这 绝对 是 一 个 大 数据 | 

他 们 详细 地 研究 了 观察 性 研究 中 经 常 使 用 的 模型 ， 并 用 上 面 的 大 数据 进行 了 一 一 验证 。 最 
后 他 们 选取 了 14 个 常用 的 纵向 数据 流行 病 学 模型 。 模 型 的 细节 被 全 部 自动 化 ， 并 且 每 个 
模型 都 有 大 约 5000 个 可 调 参数 。 


这 样 做 是 为 了 验证 已 有 模型 的 预测 效果 是 否 准确 。 

















因为 公认 的 研究 成 果 可 以 用 来 验证 这 些 模 型 的 效果 。 他 们 选取 了 10 个 被 广泛 研究 的 药物 ， 
包括 血管 素 转换 酶 抑制 剂 、 华 法 令 阻 带 剂 以 及 下 丙酮 香 豆 素 等 ， 以 及 10 个 用 药 症状 ， 包 
括 凤 功能 衰竭 、 住 院 和 出 血 症 状 等 。 

















对 于 这 10 类 药物 来 说 ， 其 中 某 些 的 副作用 是 已 知 的 。 比 如 说 ， 华 法 令 阻 滞 剂 会 导致 血管 
壁 变 薄 以 及 失血 。 类 似 这 样 的 已 知 的 副作用 还 有 多 达 9 个 。 








另外 有 44 个 已 知 的 无 副作用 药物 ， 这 些 药 物 我 们 有 充分 的 证 据 相 信 他 们 不 会 对 人 体 产生 
副作用 ， 最 起 码 不 会 产生 上 述 10 种 用 药 症 状 。 


验证 的 方法 很 简单 : 在 所 有 10 个 数据 库 数据 上 运行 5000 种 常见 的 流行 病 学 分 析 ， 并 验证 
每 个 数据 库 上 每 种 分 析 的 预测 效果 。 这 有 点 类 似 于 第 4 章 讨论 过 的 垃圾 邮件 过 滤 模 型 的 测 
试问 题 ， 数 据 被 分 为 训练 数据 集 和 测试 数据 集 。 模 型 的 估计 只 用 到 训练 数据 集 ， 而 测试 则 
是 在 不 同 于 训练 数据 集 的 独立 的 测试 数据 集 上 完成 。 











每 次 测试 都 只 输出 两 个 统计 量 : 相对 风险 值 (Relarive Risk, RR) “和 预测 误差 。 




















可 以 看 出 ， 这 个 项 目的 最 终 目的 是 验证 已 有 流行 病 学 模型 的 实际 预测 效果 ， 这 有 点 类 似 于 
John Ioannidis 的 工作 (http://stanford.io/15LfJDL ) 。 











t 为 什么 这 个 项 目 到 现在 才 做 ? 

p^ 。 这 涉及 利益 冲突 的 问题 。 没 有 人 愿意 去 验证 他 们 的 模型 是 无 效 的 ， 他 们 自然 
必 ， 也 不 会 提供 数据 给 想 要 验证 的 人 。 而 且 从 规模 上 来 看 ， 这 个 项 目 是 巨大 的 ， 
其 耗资 近 2500 万 美元 。 然 而 ， 这 笔 钱 看 起 来 似乎 很 多 ,但 是 与 那些 已 经 完 
成 的 (结果 可 能 是 错误 的 ) 研究 的 经 费 比 起 来 ， 这 简直 就 是 九 牛 一 毛 。 























注 2: 相对 风险 值 是 因果 关系 的 测度 指标 











这 个 项 目 购买 了 


10 个 数据 库 中 的 所 有 数据 ， 所 有 的 模型 都 被 自动 化 ， 他 们 还 使 用 了 亚 马 


逊 的 云 计算 服务 用 来 加 快 模型 的 运行 速度 。 他 们 甚至 开源 了 该 项 目 所 有 的 原始 代码 。 在 项 
目的 第 二 阶段 ， 他 们 把 研究 对 象 缩减 到 了 4 个 用 药 症 状 ， 并 且 绘 制 了 所 有 模型 汇总 的 ROC 
曲线 (这 意味 着 这 条 曲线 价值 2500 万 美元 ! ) ， 见 图 12-2, 











RELIER 


MDCR. CDM MEDDRA > Color by 
CM: 21000214 CONOITION GROUP. NAME 





伪 阳 性 率 ( 1- 特 异 度 ) 








12-2: 价值 2500 万 美元 的 ROC 曲线 图 ( 另 见 彩 插图 12-2) 


为 了 理解 这 幅 价值 连城 的 ROC 图 ， 我 们 首先 需要 定义 一 个 国 值 ， 比 如 说 2。 也 就 是 说 ， 如 
果 模 型 的 相对 风险 值 大 于 2， 则 模型 所 估计 的 因果 关系 可 以 解释 为 “恶化 作用 ， 如 果 小 于 
2， 则 为 “促进 作用 ”。 立 值 的 选取 对 模型 结果 的 解释 有 着 直接 的 影响 。 











如 果 阔 值 设 定 为 


























10， 那 么 没有 任何 一 个 模型 的 相对 风险 值 可 以 达到 10， 因 此 所 有 的 模型 





结果 都 是 有 “促进 效果 "。 另 外 需要 注意 的 是 ， 由 于 一 些 药物 已 经 退 市 或 者 停产 ， 他 们 的 


市 场 保有 量 为 0 


效果 。 























或 者 极 少 ， 因 此 模型 的 “敏感 性 ”自然 很 低 ， 因 此 模型 很 难 发 现 有 任何 














生 ” 也 意味 着 伪 阳 性 的 值 也 很 小 。 

















同样 的 道理 ， 如 有 果 国 值 设 定 为 -10， 那 么 所 有 模型 的 相对 风险 值 都 大 于 -10， 所 有 模型 得 到 
的 都 是 “恶化 作用 "。 此 时 虽然 模型 的 敏感 性 ”达到 了 100% ， 但 是 伪 阳 性 的 值 却 变 大 了 。 





因此 ， 国 值 的 设 定 相当 于 在 模型 的 “敏感 性 ”和 伪 阳 性 中 做 出 权衡 ， 这 就 是 ROC 曲线 的 
核心 内 容 。 我 们 可 以 找到 一 个 最 佳 的 国 值 1.8， 其 “敏感 性 ”为 50%， 伪 阳性 为 30%。 
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» ow. 
如 果 你 是 FPA， 这 样 的 ROC 曲线 是 不 能 过 关 的 。 因 为 30% 的 伪 阳 性 不 在 
Wa. FDA 的 考虑 范围 之 内 ， 会 被 立即 否决 。 


SE 


























在 前 面 的 章节 我 们 讨论 过 ， 相 对 于 ROC 本 身 ， 可 以 用 AUC 来 评价 模型 的 预测 效果 。AUC 
为 1 的 模型 是 最 佳 模 型 ， 如 果 模 型 的 预测 效果 十 分 平庸 ， 则 AUC 接近 于 0.5。0.5 的 AUC 
代表 该 模型 与 里 猜 没有 任何 区 别 。 


























上 图 的 AUC 值 为 0.64。 在 研究 团队 (包括 David Madigan) 运行 过 的 5000 个 分 析 中 ，0.64 
其 实 是 其 中 效果 最 好 的 模型 。 


























但 是 需要 注意 的 是 ，0.64 的 AUC 是 建立 在 对 每 个 数据 都 应 用 同一 个 模型 的 情况 。 可 以 想 
象 ， 现 实 中 使 用 的 很 多 模型 也 基本 与 瞎 猜 没有 任何 区 别 。 





然而 ， 没 有 任何 一 个 流行 病 学 家 会 这 么 干 。 对 于 手中 的 数据 ， 他 们 总 是 想 找 到 一 个 最 好 的 
模型 以 便 得 到 最 好 的 预测 效果 。 他 们 通常 都 能 得 到 更 好 的 结果 ， 以 上 面 医疗 保健 的 数据 为 
例 ， 在 预测 急性 肾 损 伤 时 ， 他 们 使 用 的 模型 的 AUC 达到 了 0.92 (LE 12-3) ， 模 型 的 “ 敏 
感性 ”为 80%， 伪 阳性 值 为 10%。 
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12-3: 针对 性 的 选取 模型 后 ， 模 型 的 预测 效果 可 以 得 到 较 大 改善 ( 另 见 彩 插图 12-3) 


模型 的 验证 使 用 了 交叉 验证 法 。 最 终 的 最 优 模型 是 一 个 叫 作 “0OS ”的 方法 ， 该 方法 在 给 
定 病人 的 病历 后 ， 在 病历 期 内 进行 比较 (因此 ， 病 人 在 服药 阶段 和 不 服药 阶段 会 有 较 大 差 
距 )。 不 过 该 方法 还 没有 引起 大 家 的 注意 。 











有 意思 的 是 ， 大 多 数 流 行 病 学 家 根本 不 承认 这 项 研究 的 结果 | 
如 果 感 兴趣 ， 你 可 以 去 该 项 目的 官方 网 站 (http://elmo.omop.org) 看 看 ， 上 面 有 每 个 数据 











以 及 每 个 模型 的 AUC 曲线 。 模 型 











使 用 的 数据 大 致 截止 于 2013 年 中 。 如 果 有 最 新 的 数据 ， 


更 新 所 有 的 分 析 ， 结 果 可 能 会 有 所 不 同 。 


12.8 最 后 的 思维 实验 





在 上 面 的 OMOP 项 目 中 ， 每 个 数据 库 都 运行 了 近 5000 种 分 析 。 有 设 有 可 能 将 这 些 分 析 捆 








绑 起 来 做 呢 ? 或 者 说 ， 用 一 种 类 似 模型 投票 的 方式 ， 赋 了 予 模型 不 同 的 权重 以 达到 更 好 的 分 
析 效 果 。 因 为 该 项 目的 源 代码 是 开源 的 ， 说 不 定 你 可 以 就 这 个 想 一 想 题 目 写 一 篇 博士 论 

















文 呢 。 
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第 13 章 
从 竞赛 中 学 到 的 ， 数据 
泄漏 和 模型 评价 





本 章 由 Claudia Perlich 贡献 ， 过 去 几 年 ， 她 一 直 担任 M6D 公司 的 首席 科学 家 。 在 这 之 前 ， 
她 供职 于 IBM 某 研发 中 心 的 数据 科学 小 组 ， 在 电视 节目 Jeopardy! 上 击败 人 类 赢得 比赛 的 
Waston 系统 就 诞生 于 这 个 研发 中 心 ， 但 是 Claudia 并 没有 参与 那个 项 目 。Claudia 拥有 计算 
机 科学 硕士 学 位 ， 并 在 纽约 大 学 获得 信息 系统 博士 学 位 。 现 在 她 在 商学 院 开设 了 一 门 数据 
科学 课程 ， 课 程 的 重点 是 如 何 评估 数据 科学 工作 的 价值 和 如 何 管理 数据 科学 家 。 

Claudia 三 声 数据 科学 界 ， 因 她 在 数据 挖掘 竞赛 中 是 常 胜 将 军 。 她 曾经 赢得 过 2003 年 、 
2007 年 、2008 年 和 2009 年 的 KDD Cup 竞赛 ， 还 赢得 过 2005 年 的 ILP Challenge, 2008 年 
的 INFORMS Challenge 和 2010 年 的 Kaggle HIV 比赛 。 

近 些 年 Claudia 转 而 成 为 这 些 赛事 的 组 织 者 。 她 先是 作为 组 织 者 参与 了 2009 年 的 
INFORMS Challenge， 继 而 又 参与 了 2011 年 的 Heritage Health Prize。 最 近 Claudia 宣布 不 
再 参与 数据 挖掘 竞赛 ， 但 我 们 的 课程 有 幸 请 她 来 ， 跟 大 家 分 享 一 些 经 验 见 解 ， 看 看 我 们 能 
从 数据 竞赛 中 学 到 什么 。 在 数 次 竞赛 中 ，Claudia 获 益 良 多 ， 特 别 是 数据 泄漏 和 如 何 评价 她 
在 竞赛 中 提出 的 模型 。 


13.1 Claudia 作 为 数据 科学 家 的 知识 结构 


Claudia 先 询 问 了 其 他 数据 科学 家 的 参考 点 ， 根 据 其 知识 结构 来 评估 他 们 在 数据 科学 界 所 
处 的 位 置 。( 她 的 知识 结构 如 表 13-1 所 示 。 对 比 了 第 1 章 讲 到 的 数据 科学 家 的 知识 结构 ， 
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Claudia 说 :“ 有 一 项 最 重要 、 最 难 形容 的 技能 没有 出 现在 你 们 的 知识 结构 中 ， 那 就 是 数 
据 。) 她 认识 一 些 世界 顶级 的 数学 家 、 机 器 学 习 专家 和 统计 学 家 等 。 在 知识 结构 表 各 项 技 
能 的 描述 中 ， 她 是 以 专家 的 标准 来 要 求 自 己 ， 还 是 以 她 所 处 领域 的 平均 水 平 ， 或 者 只 是 以 
一 个 普通 人 作为 参考 ? 


表 13-1: Claudia 的 数据 科学 知识 结构 
及 格 优秀 扎实 注 释 














可 视 化 x 我 会 做 可 视 化 ， 但 是 我 不 相信 可 视 化 

UE 我 有 两 个 计算 机 科学 专业 的 硕士 学 位 ， 我 也 可 以 随手 编写 一 些 代码 ， 但 

Wm 不 是 那 种 产品 级 的 代码 

数学 x 学 数学 是 很 早 以 前 的 事 了 

"n . 没 接受 过 正规 训练 ， 很 多 东西 都 是 边 做 边 学 ， 有 时 候 也 要 车 自己 很 好 的 
直觉 

机 器 学 习 x 

领域 知识 你 确信 这 个 问题 没 问 错 吗 

讲演 x 

数据 x 


13.1.1 首席 数据 科学 家 的 生活 

xtX, Claudia 花 了 很 多 时 间 和 精力 在 预测 建 模 上 ， 包 括 参加 一 些 数 据 挖掘 比赛 ， 为 一 些 
术 期 刊 、 学 术 会 议 (比如 KDD) 撰写 论文 、 做 演讲 、 写 专利 ， 在 大 学 教书 等 。 但 她 最 
欢 干 的 事 是 挖 据 数据 的 含义 ， 她 喜欢 直接 面 对 数 据 ， 经 由 数据 了 解 世界 。 

Claudia 有 15 年 的 数据 处 理 经 验 ， 期 间 她 通过 深入 研究 数据 的 生成 过 程 ， 培 养 出 一 种 对 数 
据 的 直觉 。 数 据 生 成 过 程 是 整个 研究 问题 中 的 关键 一 环 。 她 花 了 大 量 时 间 来 思考 模型 评价 
过 程 ， 从 而 也 培养 出 了 对 模型 的 直觉 。 




















Claudia 的 主要 技能 包括 使 用 Unix, sed, awk, Perl 和 SQL 对 数据 进行 处 理 。 她 能 使 用 各 
种 方法 进行 建 模 ， 包 括 逻 辑 回归 、 大 最 小 近邻 算法 等 ， 最 重要 的 是 她 花 了 很 多 时 间 将 所 有 
的 事情 都 串 起 来 。 整 理 数据 、 为 数据 进行 建 模 大 约 花 去 她 40% 的 时 间 ， 这 时 她 将 自己 称 作 
“贡献 者 ”。 她 还 要 花 40% 的 时 间 写 文章 、 做 演讲 ， 大 多 数 时 候 是 代表 M6D 公司 和 外 界 进 
行 交 流 ， 这 时 她 称 自己 为 “大 使 "。 还 有 20% 的 时 间 用 来 与 她 的 数据 科学 团队 一 起 工作 ， 
这 时 她 的 角色 则 是 “领导 ”。 


13.1.2 ”作为 一 名 女 数据 科学 家 

女性 在 数据 科学 领域 同样 可 以 工作 得 很 出 色 ， 她 们 的 直觉 在 这 里 是 有 用 的 ， 并 且 常 常 被 用 
到 。 当 事情 不 对 劲 的 时 候 ， 她 们 可 以 嗅 出 空气 中 异样 的 气息 ， 当 然 这 和 使 用 算法 严格 来 进 
行 证 明 是 两 回 事 。 通常， 人 们 更 容易 记 住 女性 ， 即 使 该 女性 不 一 定 能 记 住 他 。Claudia 愉快 
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地 承认 了 这 个 事实 。 但 是 ， 她 之 所 以 有 现在 这 样 的 成 就 ， 根 本 原因 还 是 她 很 优秀 。 





了 在 学 术 期 








在 学 术 界 ，Claudia 曾 发 表 过 不 少 文章 ， 因 此 熟知 在 期 刊 之 类 的 地 方 发 文章 的 流程 。 她 讨论 
刊 或 者 学 术 会 议 上 发 文章 时 ， 两 性 是 否 平等 。 在 过 去 ， 这 是 一 个 双 盲 的 过 程 ， 


但 是 现在 更 多 是 单 向 的 。 而 且 根 据 Shawndra Hill 和 Foster Provost 在 2003 年 发 表 的 一 篇 文 
*, v s 而 且 准 确 度 达 到 40%， 如 果 该 作者 发 表 
是 为 了 


过 多 篇 文章 ， 预 测 准 确 率 还 会 更 高 。 希 
H, FEA 
偏见 。Claudia 承认 自己 在 一 些 研究 机 构 中 曾 遭 遇 




















2-5 


AE. H6 






































遇 过 少许 偏见 一 一 根据 她 的 经 验 ， 


机 构 的 准备 工作 做 得 更 好 。 


13.2 ”数据 挖掘 竞赛 


Claudia 对 于 不 同类 型 的 数据 挖掘 竞赛 做 了 总 结 。 
准备 好 的 、 干 净 的 ， 对 错误 的 衡量 也 有 统一 





粹 的 机 器 学 习 问 题 。 


这 种 类 型 竞赛 的 
比赛 中 ， 重 


HLA 


PR ES 


点 是 算法 和 计算 。 获 胜 者 通 














的 标准 特征 变量 常常 是 匿名 的 ， 








例子 是 KDD Cup 2009 和 Netflix Prize, 3 
向 组 合 了 一 堆 复 














BAR 杂 的 模型 型 ES 








个 方法 不 会 在 审阅 文章 时 被 用 到 ， 这 只 
RE p 希望 这 一 举动 不 会 造成 过 多 的 
某 些 研究 


一 种 类 型 是 “无 菌 型 ”的 。 a 


这 是 一 个 纯 


还 有 一 些 Kaggle 竞赛 。 在 这 种 
调用 了 庞大 的 计算 资源 。 








KDD Cup 2010: 
KDD Cup 2009 : 
KDD Cup 2008: 
KDD Cup 2007: 
KDD Cup 2006: 
KDD Cup 2005: 
KDD Cup 2004: 
KDD Cup 2003: 
KDD Cup 2002: 
KDD Cup 2001: 
KDD Cup 2000: 
KDD Cup 1999; 
KDD Cup 1998: 
KDD Cup 1997: 


KDD 杯 数据 分 析 竞 赛 


Student performance evaluation 

Customer relationship prediction 

Breast cancer 

Consumer recommendations 

Pulmonary embolisms detection from image data 
Internet user search query categorization 

Particle physics; plus protein homology prediction 
Network mining and usage log analysis 

BioMed document; plus gene role classification 
Molecular bioactivity; plus protein locale prediction 
Online retailer website clickstream analysis 
Computer network intrusion detection 

Direct marketing for profit optimization 


Direct marketing for lift curve optimization 


历届 KDD 杯 数 据 分 析 竞赛 的 题目 和 对 应 的 数据 集 都 可 以 从 以 下 网 站 获得 : http://www. 
kdd.org/kddcup/index.php。 下 面 是 历届 比赛 的 题目 : 
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与 之 相反 ， 另 一 种 是 “现实 世界 ”中 的 数据 挖掘 竞赛 。 面 对 的 是 原始 数据 (数据 经 常 分 散 
在 不 同 的 表 中 ， 而 且 合并 起 来 很 困难 )， 需 要 自己 建立 模型 ， 根 据 任务 特性 评价 模型 的 好 
坏 。 这 种 类 型 的 比赛 更 好 地 模拟 了 现实 世界 ， 这 就 回 到 了 Rachel 在 本 书 前 面 的 一 个 思维 实 
验 : 如 何在 课堂 上 模拟 一 个 数据 科学 家 所 要 面 对 的 混乱 局 面 。 这 需要 在 长 期 处 理 混 乱 情 况 
的 过 程 中 不 断 历练 。 

这 种 类 型 的 例子 有 2007 年 、2008 年 和 2010 年 的 KDD Cup 比赛 。 如 果 你 参加 的 是 这 种 类 


型 的 比赛 ， 那 么 就 需要 了 解 问题 所 处 的 领域 ,分 析 数 据 ， 建 立 模 型 。 获 胜 者 会 是 那些 最 懂 
得 如 何 根 据 实际 问题 对 模型 进行 调整 的 人 。 









































Claudia 更 喜欢 第 二 种 类 型 的 竞赛 ， 因 为 这 和 我 们 的 生活 贴 得 更 近 。 


13.3 ”如何 成 为 出 色 的 建 模 者 

Claudia 认为 ， 数 据 和 领域 知识 是 数据 科学 家 所 需 具 备 的 最 重要 的 技能 ， 但 是 这 些 技能 是 老 

师 教 不 来 的 ， 只 能 通过 不 断 积 累 得 来 。 

Claudia 通过 参加 各 种 数据 挖掘 竞赛 学 到 了 很 多 东西 ， 而 这 些 东西 在 学 术 界 常常 被 忽视 。 

e 数据 泄漏 
数据 泄漏 是 参赛 者 最 好 的 朋友 ， 也 是 组 织 者 和 出 题 者 的 囊 梦 。 数 据 总 是 或 多 或 少 有 些 问 
题 ，Claudia 将 发 现 这 些 问 题 变 成 了 一 种 艺术 ， 她 总 能 指出 准备 竞赛 的 人 在 处 理 数 据 时 
的 懈 仿 和 马虎 。 





。 真实 世界 中 评价 模型 的 标准 
标准 的 模型 评价 标准 有 均 方 误差 (MSE)、 错 分 率 和 曲线 下 面积 (AUC) 等 ， 在 真实 世 
界 中 对 模型 做 评价 ， 有 时 候 要 越过 它们 ， 选 择 其 他 标准 。 比 如 ， 利 润 可 能 是 现实 生活 中 
一 个 更 有 效 的 评价 标准 。 





。 特征 变量 创建 和 变换 
真实 数据 很 少 那么 规整 (看 起 来 很 漂亮 的 数据 )， 如 何 解决 这 个 问题 现在 还 是 个 挑战 。 


13.4 数据 泄漏 

在 2011 年 的 KDD 大 会 上 ，Claudia 和 Shachar Kaufman、Saharon Rosset 共同 发 表 了 一 篇 文 
3€: “Leakage in Data Mining: Formulation, Detection, and Avoidance”( "数据 挖 据 中 的 数据 汽 
W: 公式 化 、 检 测 和 避免 )。 他 们 提 到 了 另外 一 个 作者 Dorian Pyle， 他 写 过 很 多 关于 数据 
挖掘 中 数据 准备 阶段 的 文章 。 在 这 个 过 程 中 他 发 现 了 一 个 现象 ， 即 很 多 事情 变 得 不 合 时 宜 ， 
他 将 这 称 为 “时 空 错 乱 ”。 他 说 很 多 数据 好 得 难以 置信 ， 但 其 实 这 种 数据 的 存在 本 身 就 是 一 
种 漏洞 。Claudia 和 另外 两 位 作者 将 预测 建 模 中 的 类 似 现象 称 为 “数据 泄漏 >"。Pyle 建议 借 
助 探 索性 数据 分 析 找 到 数据 泄漏 的 源头 ， 而 Claudia 他 们 倾向 找 出 对 付 数据 泄漏 的 方法 。 
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数据 泄漏 是 借助 数据 或 信息 做 出 预测 ， 虽 然 结果 正确 ， 但 其 实 你 能 够 获得 这 些 数据 并 据 此 
进行 预测 ， 这 本 身 就 是 不 合适 或 者 行 不 通 的 。 不 光 在 比赛 中 ， 在 真实 环境 中 ， 这 也 是 建 模 
时 的 一 个 大 问题 。 数 据 刘露 通常 是 因果 苏 倒 的 产物 ， 让 我 们 通过 几 个 例子 ， 看 看 这 是 怎么 
发 生 的 。 








13.4.1 rbi d il 

有 一 场 比 赛 是 预测 标准 普尔 指数 (S&P) 的 涨 跌 的 ， 获 胜 者 的 曲线 下 面积 (AUC) 达到 了 
惊人 的 0.999。 股 票 市 场 几乎 是 随机 的 ， 出 现 这 种 情况 要 么 是 因为 有 人 很 有 钱 ， 要 么 是 因 
为 什么 地 方 出 现 了 错误 Gm: 那 次 是 有 地 方 出 错 了 )。 


在 过 去 一 段 “ 美 好 时 期 ”， 参 赛 者 只 要 找到 泄露 的 数据 就 能 赢得 比赛 。 在 这 个 案例 中 ， 虽 
然 我 们 不 清楚 到 底 是 哪里 产生 了 数据 泄漏 ， 但 是 通过 持续 不 断 地 对 数据 进行 分 析 ， 有 可 能 
就 会 发 现 数据 集中 的 有 些 信息 可 以 对 预测 标准 普尔 指数 产生 决定 性 作用 ， 但 是 在 真实 情 
况 下 做 预测 是 无 法 拿 到 这 些 信息 的 。 举 这 个 例子 的 用 意 是 说 明 ， 比 赛 中 有 人 取得 如 此 高 的 
AUC 一 定 是 依赖 于 某 些 数据 泄漏 ， 在 真实 环境 下 如 此 建 模 是 行 不 通 的 。 


























13.4.2 ”亚马逊 案例 学 习 : 出 手 阔 绰 的 顾客 

这 个 比赛 的 目的 是 通过 历史 购物 记录 ， 预 测 出 哪些 顾客 会 在 亚马逊 网 站 上 花 更 多 的 钱 。 数 
据 由 不 同 商品 种 类 的 交易 记录 构成 。 其 中 赢得 比赛 的 一 个 模型 将 “Free Shipping = True' 
认定 成 一 个 关键 的 预测 变量 。 请 注意 ， 只 有 购物 金额 在 一 定数 额 之 上 ， 比 如 说 50 美元 ， 
才能 享受 免费 送 货 。 


哪里 不 对 劲 呢 ? 关键 是 免费 送 货 是 因为 花 了 很 多 钱 的 结果 。 不 能 因为 这 样 一 种 相关 性 去 建 
立 模 型 ， 比 如 ， 这 种 模型 对 新 顾客 就 不 适用 。 这 里 要 注意 的 是 ， 时 间 惟 的 作用 并 不 大 。 包 
含 “Free Shipping = True” 的 记录 和 购买 行为 是 同时 发 生 的 ， 用 这 样 的 记录 做 预测 是 没有 
意义 的 。 你 需要 使 用 以 前 的 数据 去 预测 未 来 。 困 难 在 于 收集 到 的 数据 中 混入 了 包含 免费 送 
货 的 记录 ， 这 些 记录 必须 被 人 工 剔除 ， 而 作为 模型 的 建立 者 ， 需 要 深思 熟 虑 ， 了 解 你 的 数 
据 。 如 果 没 有 把 数据 泄漏 的 情况 考虑 在 内 ， 很 可 能 将 免费 送 货 作 为 一 个 变量 来 建立 模型 ， 
并 且 发 现 它 的 预测 效果 很 好 。 但 是 ， 当 在 生产 环境 中 使 用 该 模型 时 ， 你 无 法 知道 购物 者 是 
否 会 得 到 免费 送 货 的 待遇 。 


13.4.3 ”珠宝 抽样 问题 
还 是 一 个 在 线 零 售 商 的 例子 。 这 次 是 预测 哪些 顾客 会 购买 珠宝 。 数 据 依 然 由 各 类 商品 的 交 
易 记 录 构 成 。 其 中 一 个 模型 在 sum(revenue) = 0 时， 预测 结果 非常 准确 。 


哪里 又 不 对 劲 了 呢 ” 原 来 ， 为 这 次 比赛 准备 数据 的 人 删除 了 顾客 是 否 购买 珠宝 的 信息 ， 但 
数据 集中 只 包含 了 那些 买 过 东西 的 用 户 。 因 此 ， 那 些 sum(revenue) = 0 的 顾客 ， 一 定 
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买 了 珠宝 的 顾客 。 数 据 集 里 只 包含 有 过 购买 行为 的 顾客 ， 这 本 身 就 是 一 件 很 奇怪 的 事 ， 特 
别 是 在 顾客 未 完成 购买 行为 前 ， 你 无 法 使 用 该 数据 。 这 个 模型 不 是 在 正确 的 数据 上 训练 出 
来 的 ， 没 有 任何 用 处 。 这 是 一 个 抽样 问题 ， 也 是 一 个 经 常 碰 到 的 问题 。 














关于 如 何 对 用 户 进行 抽样 的 警告 


上 面 提 到 的 这 个 例子 ， 仅 对 有 过 购买 行为 的 用 户 进 行 分 析 有 点 奇怪 。 你 是 想 要 将 分 析 
仅 局 限 在 这 批 用 户 ， 还 是 访问 网 站 的 所 有 用 户 ? 更 一 般 地 ， 如 果 你 不 认真 对 待 手 头 的 
用 户 信息 ， 不 把 思路 理 清 楚 ， 就 有 可 能 犯 非 常 简单 但 又 非常 严重 的 抽样 错误 。 比 如 想 
要 分 析 网 站 一 天 的 用 户 访问 记录 ， 就 有 可 能 出 现 对 经 常 访 问 网 站 的 用 户 过 采样 的 问题 。 


用 一 个 小 例子 来 想 一 下 这 个 问题 : 假设 有 80 个 用 户 ， 其 中 10 个 每 天 都 来 访问 你 的 网 
站 ， 剩 下 的 一 周 只 访问 一 次 ， 假 设 他 们 的 访问 时 间 均 匀 地 分 布 在 每 周 的 7 天 里 ， 那 么 
任意 一 天 都 会 有 20 个 用 户 访问 你 的 网 站 。 这 其 中 的 10 人 是 每 天 都 来 的 用 户 ， 另 外 10 
人 是 每 周 来 一 次 的 用 户 。 这 里 就 会 每 天 对 访问 网 站 的 用 户 进行 了 过 采样 。 他 们 访问 网 
站 的 行为 也 许 和 其 他 用 户 有 着 根本 不 同 ， 虽 然 他 们 是 整个 用 户 数量 的 12.5% ， 但 却 占 
据 了 采样 数据 的 5096, 











13.4.4 IBM AME 

在 IBM， 需 要 预测 哪些 公司 有 意向 购买 websphere 解决 方案 ， 数 据 是 一 些 交 易 记 录 ， 通 过 
网 络 爬 虫 抓 取 潜 在 公司 的 主页 得 来 。 一 个 得 奖 的 模型 指出 ， 如 果 websphere 出 现在 公司 的 主 
页 上 ， 那 么 这 家 公司 购买 websphere 解决 方案 的 可 能 性 就 非常 大 。 哪 里 有 错 了 呢 ? 要 记 住 ， 
潜在 客户 的 定义 是 那些 还 没有 购买 产品 的 公司 (否则 ，IBM 就 不 会 试图 将 产品 卖 给 它 )， 因 
此 ， 没 有 潜在 客户 会 在 它 的 主页 上 显示 websphere 相关 信息 ， 这 根本 就 不 是 一 个 预测 变量 。 
如 果 IBM 回 到 websphere 解决 方案 还 未 诞生 的 年 代 ， 能 看 到 网 站 当时 的 快照 ， 以 此 作为 数 
据 源 ， 那 么 这 个 预测 变量 是 有 意义 的 。 遗 憾 的 是 ， 现 在 的 数据 已 经 包含 了 泄漏 的 信息 ， 它 
们 已 经 购买 过 websphere 了 。 再 说 ， 你 也 无 法 抓 取 过 去 的 网 页 ， 只 能 抓 取现 在 的 网 页 。 


这 看 起 来 是 一 个 思 蠢 并 且 显 而 易 见 的 错误 ， 谁 也 不 会 犯 这 种 错误 。 也 许 如 此 ， 但 是 这 种 事 
时 有 发 生 ， 而 且 在 深入 理解 数据 、 弄 明白 特征 和 预测 变量 的 含义 前 ， 你 无 法 预料 到 这 种 事 
情 会 发 生 。 想 一 下 ， 如 果 这 种 “显而易见 ”的 错误 都 会 犯 , 那么 对 于 那些 不 那么 明显 的 情 
况 更 应 该 加 倍 小 心 。 同 时 ， 这 也 是 在 本 书 中 没有 给 予 充分 强调 的 一 个 例子 ， 与 网 络 仆 虫 和 
洋气 的 机 器 学 习 算 法 相 比 ， 通 过 一 些 基 本 的 检查 ， 确 保 一 切 如 你 所 料 ， 往 往 会 让 你 走 得 更 
远 。 这 可 能 看 起 来 不 够 酷 ， 不 够 吸引 人 ， 但 它 管 用 ， 是 一 个 很 好 的 经 验 。 人 们 不 会 在 聚会 
时 谈 起 它 ， 也 不 会 将 其 作为 研究 成 果 发 布 出 来 ， 但 是 它 是 合理 的 ， 而 且 管 用 。( 不 过 话 又 
说 回来 ，Claudia 因为 使 用 了 这 个 技巧 ， 赢 得 了 多 次 比赛 ， 而 且 经 常 被 邀请 参与 各 种 聚会 。 
所 以 我 们 收回 刚才 的 话 。 不 ， 我 们 不 用 这 样 做 。 关 键 是 把 事情 做 好 ， 其 他 人 自然 会 跟随 
你 。 聚 会 和 名 声 并 不 是 目标 ， 目 标 是 追求 真理 。) 
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13.4.5 ”乳腺 癌 检 测 
假设 要 研究 哪些 人 患 有 乳腺 癌 。 看 看 图 13-1， 患 者 的 ID 看 起 来 无 足 轻重 ， 却 是 预测 模型 
中 很 重要 的 一 个 变量 。 看 看 发 生 了 什么 ? 


在 图 13-1 中 ， 红 色 代 表 患 有 乳腺 癌 的 患者 ， 绿 色 代表 没有 患 乳腺 癌 的 人 ， 根 据 患 者 的 了 D 做 
了 一 个 散 点 图 。 很 容易 发 现 ， 病 人 根据 患者 ID 划分 成 了 三 四 个 明显 的 区 块 。 不 同 的 区 块 在 
这 里 有 很 强 的 预测 能 力 。 这 可 能 是 因为 数据 来 自 不 同 癌症 治疗 中 心 的 数据 库 ， 有 些 治疗 中 心 
专门 用 于 救治 那些 重病 患者 一 一 顾名思义 ， 来 这 个 中 心 就 诊 的 患者 得 癌症 的 几率 更 大 。 
































患者 ID 
*— 十 * 小 =- 
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图 13-1: 依 患者 的 1D 排序 ， 红 色 代 表 得 癌症 的 患者 ， 绿 色 代表 未 得 癌症 的 人 ( 另 见 彩 插图 13-1) 
这 种 情况 在 课堂 上 引起 了 一 场 有 趣 的 讨论 。 


学 生 甲 : 为 了 使 比赛 公平 公正 ， 应 该 给 患者 重新 随机 编号 。 

Claudia: 这 能 解决 问题 吗 ” 还 会 有 其 他 类 似 属 性 存在 。 

FEZ: 这 取决 于 除了 病人 的 ID， 还 有 哪些 属性 可 以 用 来 判断 病人 来 自 哪里 。 

Claudia: 不 妨 这 样 想 想 : 我 们 究竟 要 使 用 模型 做 什么 ? 怎么 样 才 能 真正 预测 出 哪 
些 患 者 患 有 乳腺 癌 ? 




















假设 现在 有 一 个 新 来 的 病人 ， 你 将 怎么 做 ?如 果 这 个 病人 的 了 D 落 在 了 第 五 个 区 块 里 ， 那 
这 种 根据 病人 ID. 预测 的 方式 显然 不 靠 谱 。 但 是 如 果 不 是 这 种 情况 ， 则 使 用 病人 ID 做 预测 
就 是 一 种 很 好 的 方法 。 


这 个 讨论 将 我 们 带 回 到 一 个 基本 的 问题 : 我 们 需要 知道 建立 模型 的 目的 、 怎 么 使 用 模型 和 
模型 是 否 奏效 ， 以 帮助 我 们 决定 如 何 构建 模型 。 








13.4.6 ”预测 肺炎 

在 一 次 INFORMS 竞赛 中 ， 题 目 是 根据 病历 预测 病人 是 否 患 有 肺炎 一 一 将 诊断 码 当 作 一 个 
数值 型 变量 时 ， 预 测 准确 率 不 高 (曲线 下 面积 为 0.80), ， 如 果 将 诊断 码 作为 分 类 变量 ， 则 
准确 率 可 以 提高 至 0.90。 这 是 为 什么 呢 ? 
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这 和 本 次 比赛 的 数据 准备 方式 有 关 ， 如 图 13-2 所 示 。 





icd1x icd2x icd3x icd4x| | icd1x icd2x icd3x icd4x| 
| 786 285 459  -1 | 786 285 459 -1| 
| 401 486 1 1| | 400 a 4 4 
| 401 486—780 — -1| | 401 780 -1 | 
| 59 -1 4 1| —> | 59 -1 -1 -1 
| v22 650 -1 -1 | v22 650 -1 | 
| V56 492 586 1| | vs6 492 586 -1| 

786 493 285 459 786 493 285 459 











13-2; INFORMS 竞赛 中 数据 是 如 何 准备 的 ( 另 见 彩 插图 13-2) 


肺炎 的 诊断 码 为 486。 所 以 如 果 该 数据 出 现 了 ， 准 备 数据 时 就 删 掉 它 〈 用 -1 取而代之 )。 
数据 中 的 行 代表 不 同 患 者 ， 列 代表 各 项 诊断 结果 ， 最 多 有 四 项 诊断 ，-1 表示 未 进行 该 项 目 
的 诊断 。 

为 了 避免 数据 泄漏 ， 在 必要 时 ， 将 其 他 诊断 结果 向 左 进行 了 平移 ， 这 样 将 -1 都留 在 了 
右边 。 

这 样 做 有 两 个 问题 : 

。 如 果 某 一 行 记录 只 包含 -1， 那 么 该 病人 肯定 患 有 肺炎 ， 

。 如 果 某 一 行 记 录 不 包含 -1， 该 病人 肯定 没有 得 肺炎 (除非 有 五 项 诊断 , 但 这 并 不 常见 )。 


























仅仅 凭借 这 一 信息 就 能 赢得 比赛 。 


发 生 泄漏 

p^ 。 比 赛 中 ， 利 用 数据 泄漏 比 构建 一 个 好 的 数学 模型 更 容易 获胜 。 即 使 你 没有 觉 

怪 ， 察 到 数据 泄漏 ， 你 的 模型 也 会 感知 到 这 种 情况 ， 从 而 不 自觉 地 利用 它 取得 比 
赛 的 胜利 。 无 论 怎么 说 ， 数 据 泄漏 都 是 数据 挖掘 竞赛 中 面临 的 大 问题 。 





13.5 “如何 避免 数据 泄漏 

这 里 并 不 是 要 告诉 你 如 何 利 用 数据 泄漏 来 赢得 各 种 数据 竞赛 。 作 为 一 个 数据 科学 家 ， 在 准 
备 数据 、 清 理 数 据 、 补 偿 缺 失 值 和 移 除 异常 值 等 过 程 中 ， 总 会 存在 数据 泄漏 的 风险 。 在 准 
备 数 据 时 ， 你 可 能 会 无 意 中 扭 曲 数据 ， 让 模型 在 这 份 所 谓 的 “干净 ”的 数据 上 表现 良好 ， 
但 将 该 模型 应 用 于 真实 场景 中 时 ， 效 果 却 粳 透 了 。Claudia 给 了 我 们 一 些 避免 数据 泄漏 的 有 具 


























254 | 第 13 章 





体 建议 。 首 先 需 要 暂时 去 掉 那 些 事 先 已 经 知道 的 信息 ， 比 如 在 一 个 患者 确诊 前 的 信息 。 每 
一 条 记录 都 应 该 有 一 个 时 间 戳 ， 记 录 你 得 到 该 信息 的 时 间 ， 而 不 是 这 条 记录 发 生 的 时 间 。 
去 掉 那 些 制造 麻烦 的 行 和 列 ， 特 别 是 那些 很 容易 发 现 的 不 一 致 的 信息 。 经 过 深思 熟 虑 ， 从 
一 开始 就 使 用 干净 的 原始 数据 ， 未 尝 不 是 一 个 很 好 的 实践 。 最 后 ， 你 需要 知道 数据 到 底 是 
如 何 产 生 的 。 


在 前 面 提 到 的 文章 中 ，Claudia 和 她 的 合作 者 提出 了 避免 数据 泄漏 的 一 个 “两 步 走 ” 方 法 : 
首先 在 收集 数据 阶段 ， 为 所 有 记录 打上 合适 的 标签 ， 然 后 执行 一 个 他 们 称 作 “学 习 和 预测 
分 离 ” 的 过 程 。 


13.6 ”模型 评价 


怎么 评价 一 个 模型 好 不 好 ? 我 们 已 经 在 前 面 一些 章 节 中 讨论 过 这 个 问题 ， 但 是 ， 从 专家 那 
里 听取 一 些 建议 总 是 一 件 好 事 。 









































在 使 用 强大 的 算法 寻找 模型 中 的 模式 时 ， 存 在 过 拟 合 的 风险 。 这 个 概念 有 点 难 理解 ， 但 是 
它 的 基本 含义 是 “只 要 你 观察 得 足够 仔细 ， 总 能 发 现 点 什么 ”"， 即 使 这 种 从 训练 数据 上 得 
到 的 结论 不 能 推广 到 一 般 情况 。 




















为 了 避免 过 拟 合 ， 可 以 采取 交叉 验证 和 简化 模型 的 方式 。 图 13-3 展示 了 一 种 标准 的 情形 
(需要 注意 的 是 ， 实 际 工作 中 一 般 面 对 的 是 高 维度 空间 ， 通 常 没有 这 样 的 图 形 可 看 )。 






































图 13-3; 这 幅 经 典 的 图 片 来 摘自 Hastie 和 Tibshirani 合 著 的 Elements of Statistical Learning (KA 
计 学 习 基 础 》，Springer-Verlag， 参 见 http://stanford.io/17szrYz)， 展 示 了 同一 份 数 据 ， 对 
二 值 响应 拟 合 线性 回归 模型 时 ， 采 用 15 个 最 近邻 和 1 个 最 近邻 得 到 的 不 同 结果 (BUE 
插图 13-3) 


左 图 有 点 欠 拟 合 ， 中 间 一 幅 刚 好 ， 右 图 过 拟 合 。 
将 过 拟 合 考虑 在 内 ， 选 择 哪 种 模型 差别 很 大 ， 如 图 13-4 所 示 。 
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国 测 试 准确 率 
国 训练 准确 率 








提升 方法 ARA ”逻辑 回归 FR ”神经 网 络 SVN 非 剪 枝 
贝 叶 斯 决策 树 




















图 13-4: 模型 的 差别 ( 另 见 彩 插图 13-4) 


仔细 看 图 13-4， 非 剪 枝 决策 树 是 “最 过 度 拟 合 ”的 〈“ 最 过 度 拟 合 ” 是 我 们 现 发 明 的 词 )， 


这 是 非 剪 枝 决策 树 中 广为人知 的 一 个 问题 ， 因 此 ， 人 们 通常 使 用 剪 枝 决 策 树 。 


13.6.1 ”准确 度 重要 吗 


在 本 书 的 讨论 中 ， 评 价 模型 好 坏 的 标准 之 一 是 准确 度 ， 尤 其 是 对 于 那些 二 元 分 类 问题 。 
Claudia 认为 准确 度 不 是 衡量 模型 的 一 个 好 的 指标 ， 使 用 准确 度 有 什么 问题 ”首先 ， 它 显然 
不 适合 用 来 评价 回归 模型 ， 其 次 ， 对 于 那些 大 部 分 输出 为 1 的 二 元 分 类 模型 也 不 适合 ， 一 个 








很 傻 的 模型 可 能 拥有 很 高 的 预测 准确 度 ， 却 不 是 一 个 好 的 模型 〈 它 预测 所 有 的 输 
一 个 好 的 模型 却 可 能 拥有 较 低 的 准确 度 。 


13.6.2 ”概率 的 重要 性 ， 不 是 非 0 即 1 


都 是 1), 


没有 人 会 根据 二 元 输出 做 决策 。 你 想 知道 的 是 起 患 乳 腺 瘤 的 概率 ， 而 不 是 一 个 是 或 不 是 的 


答案 。 概 率 包含 了 更 多 的 信息 。 人 们 更 看 重 概率 。 


那么 Claudia 认为 评价 一 个 模型 好 坏 的 标准 是 什么 ? 她 支持 将 排名 和 标定 分 开 评价 。 为 了 
评价 排名 ， 可 以 使 用 ROC 曲线 计算 曲线 下 面积 ， 通 常 是 位 于 0.5 和 1.0 之 间 的 值 。 这 是 独 





立 于 标定 的 。 图 13-5 展示 了 如 何 绘制 ROC 曲线 。 
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生成 ROC 曲 线 

















图 13-5. 一 个 绘制 ROC 曲线 的 例子 ( 另 见 彩 插 图 13-5) 
评价 排名 时 ， 有 时 还 可 以 使 用 升力 曲线 ， 如 图 13-6 所 示 。 












































图 13-6: 升力 曲线 ( 另 见 彩 插图 13-6) 

升力 曲线 的 关键 是 升力 是 基于 一 个 基线 计算 出 来 的 。 对 于 给 定 的 一 个 点 ， 比 如 10%， 想 象 
一 下 ， 给 10% 的 用 户 播放 广告 ， 对 比 随 机 选取 10% 的 用 户 播放 广告 ， 哪 种 情况 用 户 的 点 
击 量 更 多 。 升 力 为 3 表示 点 击 量 多 3 倍 。 
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如 何 评价 标定 ?概率 准确 吗 ? 如 果 模 型 预测 恩 患 癌症 的 概率 为 0.57， 怎 么 知道 概率 真是 
0.57? 我 们 无 法 直接 衡量 这 个 结果 ， 只 能 将 这 些 概率 合并 到 几 个 分 组 中 (比如 0.50~0.55 ) ， 
然后 将 它们 和 实际 值 进行 对 比 。 














图 13-7 展示 了 使 用 非 剪 枝 决 策 树 模型 时 的 情形 ， 图 中 蓝 色 的 菱形 对 应 相应 的 分 组 。 











非 剪 枝 决 策 树 














图 13-7: 评价 标定 的 方法 之 一 是 将 模型 预测 得 到 的 概率 分 组 和 经 验 概率 分 组 绘制 成 散 点 图 进行 比较 ， 
这 里 我 们 使 用 的 是 非 剪 校 决策 树 模型 


蓝 色 的 菱形 表示 人 群 , 蕊 轴 是 经 验 概率 ， 表 示 经 观察 确定 埠 患 癌症 的 人 群 ， 了 轴 表 示 利 用 
非 剪 枝 决策 树 模型 预测 出 来 的 患 病 者 概率 的 平均 值 。 该 图 显示 ， 一 般 情况 下 ， 决 策 树 模型 
并 不 是 一 个 评价 标定 的 好 标准 。 

一 个 好 的 模型 中 ， 分 组 应 该 分 布 在 x = 了 曲线 附近 ， 但 是 这 张 图 显示 预测 概率 明显 高 于 实 
际 概率 。 为 什么 决策 树 模 型 中 会 有 这 样 的 问题 ? 

Claudia 解释 道 ， 这 是 由 于 决策 树 模 型 追求 优化 纯度 的 特性 导致 的 ， 决 策 树 里 非 0 即 1。 
此 ， 相 比 现实 情况 ， 使 用 决策 树 模 型 得 到 的 预测 往往 显得 更 极端 。 这 是 决策 树 的 普遍 问 
题 : 它们 不 适合 评价 标定 。 











而 Lotistic 回归 就 好 很 多 ， 结 果 通 常 如 图 13-8 所 示 。 








蓝 色 的 萎 形 依然 表示 人 群 。 下 图 显示 了 逻辑 回归 模型 在 评价 模型 标定 方面 做 得 更 好 。 
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逻辑 回归 模型 











经 验 概率 





图 13-8: 测试 逻辑 回归 模型 的 标定 


13.7 ”如 何 选 择 算法 


这 并 不 是 一 个 容易 回答 的 问题 ， 特 别 是 基于 小 数据 集 所 做 的 测验 往往 会 让 你 误 入 歧途 。 最 
佳 算法 会 根据 样本 容量 而 发 生变 化 。 决 策 树 通常 表现 不 错 ， 但 前 提 是 拥有 足够 多 的 数据 。 


一 般 情 况 下 ， 需 要 根据 数据 集 的 大 小 和 性 质 选 择 算法 ， 选 择 评价 模型 的 方法 则 要 根据 数据 
和 你 对 模型 的 期 望 ， 你 希望 它 在 哪 方面 表现 良好 。 如 果 数 据 服 从 正 态 分 布 ， 那 么 误差 平方 
和 就 是 最 大 似 然 估 计 的 损失 函数 ， 如 果 要 估计 中 位 数 ， 则 应 该 使 用 绝对 误差 ， 如果 要 估计 
分 位 数 ， 则 应 使 加 权 绝 对 误差 最 小 化 。 


我 们 曾经 参加 过 一 个 比赛 ， 预 测 电影 在 下 一 年 的 打分 情况 ， 我 们 假定 打分 情况 服从 泊 松 分 
布 。 这 时 ， 我 们 采用 的 评价 方法 就 不 包含 让 误差 平方 和 最 小 化 ， 而 是 包含 了 泊 松 分 布 中 特 
有 的 属性 ， 该 属性 依赖 唯一 的 参数 4。 因 此， 有 时 候 需 要 根据 自己 的 情况 ， 挑 选 那些 适用 
的 评价 方式 。 


13.8 ”最 后 一 个 例子 
让 我 们 做 个 总 结 。 


假设 你 要 为 慈善 活动 募捐 。 通 过 向 邮件 列表 里 的 所 有 人 和 群发 邮件 ， 你 希望 最 后 能 其 得 9000 
美元 资金 。 考 虑 到 一 般 情况 下 只 有 5% 的 人 愿意 捐款 ， 为 了 节省 开支 ， 你 只 给 这 些 愿 意 捐 
款 的 人 写 信 。 请 问 ， 你 如 何 知 道 哪 些 人 愿意 捐款 ? 
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如 果 选 择 裁剪 过 的 决策 树 模型 (这 是 一 种 标准 做 法 ) ， 你 的 收益 将 会 是 0， 决 策 树 里 找 不 到 
一 个 大 多 数 正 向 反馈 的 叶子 节点 。 
如 果 选 择 神经 网 络 ， 即 使 只 给 那些 预期 收益 大 于 开支 的 人 写 信 ， 也 只 能 得 到 7500 美元 的 


收益 。 





让 我 们 试 着 将 这 个 问题 分 解 如 下 。 收 到 信 的 人 通常 会 做 两 个 决定 : 首先 ， 他 们 要 决定 是 否 
捐赠 ， 其次， 捐赠 多 少 。 我 们 可 以 使 用 如 下 公式 为 这 两 个 决定 分 别 进行 建 模 ; 
E($ | person) = P (response = "yes | person) ， 
E($ | response = "yes" , person) 
要 注意 的 是 ， 必 须 确 保 第 一 个 模型 的 准确 性 ， 因 为 你 真正 关心 的 是 决定 捐赠 的 人 数 ， 而 不 
仅仅 是 捐赠 数目 。 因 此 ， 对 于 第 一 部 分 ， 可 以 采用 逻辑 回归 ; 对 于 第 二 部 分 ， 可 以 在 同意 
捐赠 的 人 里 训练 模型 。 











合 起 来 ， 这 种 分 解 的 模型 能 获得 15 000 美元 的 收入 。 通 过 分 解 的 方式 ， 模 型 可 以 很 容易 地 
捕 所 到 有 用 的 信息 。 如 果 数据 是 无 限 的 ， 一 切 都 没有 问题 ， 你 也 不 需要 分 解 模型 。 但 是 现 
实 并 不 完美 ， 你 需要 结合 实际 进行 工作 。 

















此 外 ， 采 用 分 解 的 方式 也 多 次 引入 了 误差 ， 如 果 你 有 理由 相信 它们 是 相关 的 ， 那 这 可 能 会 
成 为 一 个 问题 。 





13.9 ”临别 感言 

Claudia 说 ， 人 类 不 是 生来 就 懂 数 据 的 。 数 据 处 在 我 们 的 感官 系统 之 外 ， 只 有 极 少数 人 对 于 
数字 有 种 天 生 的 敏感 。 我 们 大 多 数 人 是 命中 注定 只 能 理解 语言 的 。 

我 们 也 不 是 生来 就 懂 不 确定 性 的 : 由 于 心 存 各 种 偏见 ， 我 们 难以 对 不 确定 性 做 出 正确 理 
解 ， 这 些 都 已 经 被 很 好 地 记录 下 来 。 因 此 ， 从 本 质 上 来 说 ， 预 测 未 来 要 比 对 已 发 生 的 事情 
进行 分 类 难得 多 。 








即使 如 此 ， 我 们 仍 竭尽 所 能 ， 小 心经 翼 地 产生 数据 ， 一 丝 不 兢 地 理解 问题 ， 确 保 使 用 和 真 
实 环境 接近 的 数据 进行 建 模 ， 确 保 朝 我 们 期 望 的 方向 进行 优化 ， 不 断 学 习 ， 和 掌握 哪 种 任务 
适用 哪 种 算法 。 
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第 14 章 
数据 工程 ， MapReduce、 
Pregel, Hadoop 





本 章 由 David Crawshaw 和 Josh Wills 合作 完成 。Rachel 在 谷歌 工作 期 间 ， 兽 和 他 们 一 起 共 
E, HRAS-T Google+ 项 目的 数据 科学 小 组 ， 但 是 他 们 俩 并 未 一 起 工作 过 ，Josh Wills 离开 
谷歌 加 入 Cloudera 后 ，David Crawshaw 接替 他 成 为 新 的 技术 领头 人 人。 我们 可 以 称 他 们 为 
“数据 工程 师 ”， 虽 然 这 个 称谓 像 “数据 科学 家 ”一 样 语 焉 不详 (其 至 很 可 能 被 过 度 解读 )， 
但 可 以 这 样 说 ， 他 们 是 能 够 处 理 海 量 数据 的 软件 工程 师 。 根 据 第 2 章 讲 到 的 数据 科学 的 工 
作 流 程 ，David 和 Josh 在 谷歌 的 职责 是 收集 数据 (前 后 台 日 志 )， 搭 建 海量 数据 管道 以 存 
储 和 整理 数据 ， 搭 建 用 于 分 析 、 显 示 、A/B 测试 ， 或 者 说 进行 数据 科学 研究 的 基础 架构 。 


本 章 我 们 将 看 到 来 自 谷歌 工程 师 的 关于 MapReduce 的 一 手 信息 ，MapReduce 本 身 就 是 在 
谷歌 开发 的 ， 随 后 涌现 出 了 各 种 版 本 的 开源 实现 。MapReduce 是 一 种 算法 和 框架 ， 用 来 
处 理 源 在 工业 界 流行 起 来 的 海量 数据 。 本 章 的 目的 是 揭 开 蒙 在 MapReduce 上 的 神秘 面纱 。 
MapReduce 现在 都 成 了 时 泌 术语 ， 很 多 招聘 数据 科学 家 的 职位 描述 上 都 要 求 应 聘 者 “必须 
掌握 Hadoop” (Hadoop 是 MapReduce 的 一 个 开源 实现 )。 我 们 怀疑 这 些 招 聘 信息 是 人 力 资 
源 部 的 人 写 的 ， 他 们 根本 就 不 知道 MapReduce 是 用 来 干什么 的 ， 他 们 也 不 知道 不 是 所 有 的 
数据 科学 问题 都 要 用 到 MapReduce。 但 是 既然 MapReduce 已 经 成 为 一 个 数据 科学 的 术语 ， 
我 们 想 讲 清楚 它 到 底 是 什么 、 它 从 哪儿 来 的 。 你 应 该 了 解 MapReduce， 但 是 未 必 会 用 到 
它 ， 这 完全 取决 于 你 的 工作 内 容 。 





lin. 
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数据 科学 家 需要 知道 MapReduce 吗 ? 


来 玩 一 个 好 玩 的 游戏 : 去 参加 一 个 数据 科学 的 会 议 ， 数 数 “MapReduce” 被 提 及 了 多 
少 次 ， 然 后 向 他 们 提问 什么 是 MapReduce， 看 看 有 多 少 人 能 解释 清楚 。 我 们 怀疑 ， 即 
使 这 些 参 会 的 专家 在 工作 中 已 花费 数 不 清 的 时 间 来 应 用 MapReduce， 但 真正 能 解释 
清楚 的 人 也 不 会 太 多 。 在 谷歌 工作 期 间 ，Rachel 使 用 Sawzall 语言 写 了 一 些 代码 来 处 
理 和 整理 数据 ， 以 便 进 行 分 析 和 搭建 原型 ，Sawzall 语言 将 MapReduce 框架 内 建 于 它 
的 还 辑 结构 之 中 。Cathy 也 曾 在 Intent Media 担任 数据 科学 家 期 间 使 用 过 Pig 一 个 
Sawzall 的 开源 版 本 ， 她 在 Mortar Data 框架 中 同时 使 用 了 Pig 和 Python。 我 们 确实 间 
接地 用 过 MapReduce， 我 们 也 确实 理解 它 ， 但 是 肯定 没有 这 些 亲 自 实现 MapReduce 的 
家 伙 理 解 得 透彻 。 

















讨论 MapReduce 的 另 一 个 原因 是 ， 它 说 明了 在 大 数据 情景 下 ， 解 决 工程 和 基础 架构 问题 时 
所 使 用 的 一 类 算法 。 这 是 我 们 在 第 3 章 中 提出 的 第 三 类 算法 (其 他 两 类 是 机 器 学 习 算法 和 
优化 算法 )。 为 了 对 比 ， 我 们 还 介绍 了 另 一 种 数据 工程 算法 和 框架 一 一 Pregel (Pregel 也 来 
自 谷 歌 ， 而 且 已 经 开源 )， 它 对 工程 师 的 算法 知识 要 求 不 高 ， 支 持 大 规模 图 的 计算 。 























14.1 关于 David Crawshaw 


David Crawshaw 是 谷歌 的 一 名 软件 工程 师 ， 他 曾经 使 用 了 一 段 错误 的 Shell 脚本 误 删 了 
10PB 数据 ， 幸 运 的 是 ， 他 有 备份 。David 学 的 是 数学 ， 曾 和 Rachel 一 起 在 加 利 福 尼 亚 为 
Google+ 项 目 工 作 ， 现 在 他 的 工作 是 为 更 好 地 理解 搜索 搭建 基础 架构 ， 最 近 他 从 旧金山 搬 
到 了 纽约 。 









































David 为 我 们 介绍 了 MapReduce， 以 及 如 何 处 理 海量 数据 。 在 深入 这 些 内 容 之 前 ， 让 我 们 
先 做 一 个 思维 实验 。 


14.2 ”思维 实验 
我 们 应 如 何 看 待 开放 查阅 病历 记录 和 保护 隐私 之 间 的 关系 ? 


一 方面 ， 将 病历 记录 开放 查阅 会 带 来 严重 的 隐私 侵犯 问题 一 一 我 们 不 想 让 随便 一 个 人 都 能 
得 到 用 户 的 医疗 历史 。 另 一 方面 ， 有 时 候 获 取 这 些 信息 则 可 以 挽救 患者 生命 。 


据 估计 ， 在 一 个 相当 小 的 镇 上 ， 每 周 都 有 一 到 两 个 患者 死 于 信息 匮乏 ， 因 为 其 医疗 记录 不 
能 及 时 在 医院 急诊 室 和 附近 的 精神 卫生 诊所 流通 。 换 句 话 说 ， 如 果 这 些 记录 可 以 非常 方便 
地 匹配 起 来 ， 那 么 将 会 有 更 多 的 生命 得 到 挽救 。 另 一 方面 ， 如 果 匹 配 这 些 记录 很 容易 ， 一 
些 保密 的 信息 则 有 可 能 泄漏 。 当 然 ， 我 们 很 难 知道 具体 有 多 少 生 命 因 这 个 原因 而 危 在 量 
夕 ， 但 绝 不 是 个 小 数 。 
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这 就 自然 引出 一 系列 问题 ， 医疗 记录 里 有 多 少 信息 属于 隐私 ， 是 需要 保护 的 ， 谁 有 权力 访 
问 你 的 医疗 记录 ， 在 什么 条 件 下 才能 访问 。 

我 们 假设 尊重 隐私 一 般 情况 下 是 件 好 事 。 比 如 ， 无 神 论 者 在 某 些 地 方 是 要 被 判处 死刑 的 ， 
在 这 种 情况 下 ， 最 好 保护 这 些 隐 私 。 但 有 时 候 隐私 也 会 带 来 死亡 ， 就 像 我 们 前 面 讲 到 的 急 
诊室 里 因 缺 乏 这 些 信息 导致 患者 死亡 的 案例 。 

让 我 们 再 来 看 看 其 他 例子 ， 执 法 机 关 时 常 要 面 对 一 些 时 违法 犯罪 行为 。 比 如 说 ， 执 法 人 员 
手 上 掌握 着 大 量 的 汽车 牌照 数据 ， 如 果 被 别有用心 的 人 有 权限 访问 ， 他 们 有 可 能 会 滥用 这 
些 信息 。 在 这 种 情况 下 ， 就 不 是 技术 的 问题 ， 而 是 人 的 问题 。 

这 同时 也 是 一 个 哲学 问题 : 在 何 种 程度 上 我 们 可 以 代替 他 人 做 决定 ? 


这 里 还 有 一 个 主观 意愿 的 问题 ， 拥 有 更 多 的 医疗 数据 我 们 或 许可 以 更 快 地 治愈 癌症 ， 但 是 
如 有 果 患 者 不 愿 公 开 病史 ， 我 们 也 不 能 因此 拒绝 治疗 他 们 。 



































最 后 ， 对 个 人 来 说 ， 这 也 是 一 个 安全 问题 。 通 常情 况 下 ， 人 们 不 在 意 别 人 拥有 这 些 数据 ， 
人 们 在 意 的 是 这 些 数据 是 否 会 给 他 们 造成 伤害 ， 或 者 将 数据 和 他 们 个 体 关联 起 来 。 


再 回 到 技术 问题 ， 搜 集 数据 要 做 到 完全 匿名 是 非常 困难 的 。Alexandre de Montjoye 等 人 在 
《自然 》 杂 志 上 发 表 了 一 篇 文章 “Unique in the Crowd: the privacy bounds of human mobility" 
(“群体 中 的 独立 性 ; 移动 化 趋势 中 的 人 类 隐私 权 界 限 ”)， 研 究 发 现 ， 对 于 一 份 包含 150 万 
欧洲 用 户 手机 号 码 的 数据 ， 仅 仅 四 位 数 就 可 以 区 分 9596 的 人 。 


最 近 我 们 发 现 人 们 在 竭力 反对 NSA 收集 美国 公民 数据 的 行为 (更 别提 搜集 非 美 国 公民 的 
数据 了 )。 事 实 上 ,在 本 书 就 要 付 梓 的 时 候 ，Edward Snowden 爆 出 了 “楼 镜 门 ”。 这 引发 了 
一 场 广泛 且 激 烈 的 大 辩论 ， 各 方 微 辩 政 府 权力 与 公民 隐私 之 间 的 边界 。 想 想 现在 有 多 少 个 
人 信息 通过 信息 数据 仓库 和 Acxiom 这 样 的 经 纪 公司 在 网 上 售卖 ， 这 些 信 息 不 光 包 含 市 场 
信息 ， 还 有 保险 、 职 业 、 贷 款 信息 。 我 们 或 许 也 应 该 就 这 些 问 题 和 企业 展开 类 似 的 对 话 。 



































14.3 MapReduce 
让 我 们 先 来 看 看 David 是 如 何 站 在 工程 师 角 度 来 看 待 大 数据 的 。 
大 数据 更 多 意义 上 只 是 一 个 时 淫 术 语 ， 但 是 它 是 有 用 的 。David 试图 用 如 下 的 话 定义 大 数据 : 


当 你 处 理 数据 时 ， 如 果 一 个 计算 单元 容纳 不 下 这 些 数据 ， 则 这 就 是 大 数据 。 这 是 一 个 随时 
间 而 演进 的 定义 ， 按 照 这 个 定义 ， 大 数据 已 经 存在 很 长 时 间 了 。 早 在 电脑 发 明之 前 ， 美 国 
国家 税务 局 就 在 征 税 ， 根 据 刚才 的 定义 ， 这 些 税收 数据 也 无 法 放 在 一 个 (不 存在 的 ) 计算 
单元 里 ， 因 此 也 可 以 叫 作 大 数据 。 
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现在 ， 大 数据 指 不 能 使 用 一 台 计 算 机 处 理 的 数据 ， 即 使 如 此 ， 大 数据 的 数量 也 在 快速 地 增 
长 。 计 算 机 在 过 去 四 十 年 中 呈 指 数 级 增长 ， 现 在 至 少 还 可 以 以 这 个 速度 持续 增长 十 年 (十 
年 前 人 们 就 这 样 说 )。 





既然 这 样 ， 大 数据 会 消失 吗 ? 我 们 可 以 忽略 它 吗 ? 





David 认为 我 们 不 能 这 样 想 。 因 为 虽然 计算 机 的 处 理 能 力也 在 保持 指数 级 增长 ， 但 是 这 些 
计算 机 同时 在 以 同样 的 处 理 能 力 产 生 数 据 。 新 的 数据 也 在 以 指数 级 的 方式 增长 。 因 此 有 两 
条 指数 级 增长 的 曲线 ， 短 期 内 还 看 不 到 相交 的 可 能 。 


让 我 们 用 一 个 实例 来 看 看 情况 会 变 得 多 么 复杂 。 


14.4 单词 频率 问题 
假设 要 从 下 述 列 表 中 找 出 出 现 频率 最 高 的 词 : red, green, bird, blue, green, red, red, 


最 容易 的 方式 当然 是 直接 通过 肉眼 观察 ， 但 是 假如 这 个 列表 变 长 了 ， 变 成 包含 10 000 个 、 
100 000 个 、1 000 000 000 个 单词 的 列表 ， 这 个 时 候 怎么 办 ? 

















最 简单 的 方式 是 写 程序 将 所 有 单词 列 和 其中， 计算 每 一 个 单词 出 现 的 次 数 。 图 14-1 展示 了 
使 用 Go 语言 (http//golang.org/) 编写 的 代码 片段 ，Go 是 David 喜欢 的 语言 ， 他 在 谷歌 参 
与 了 该 语言 的 设计 与 实现 (你 实现 过 哪 种 语言 吗 )。 











func count (words []string) ( 
counts:- map[string]int ( ) 
for. , word:- range words( 
counts[word] *-1 


} 
printSorted(counts) 
} 





& 14-1: 使 用 Go 语言 实现 的 代码 片段 


计数 和 排序 是 很 快 的 ， 因 此 这 个 算法 有 能 力 处 理 包 含 1 亿 数 量 级 单词 的 列表 。 问 题 的 瓶颈 
在 内 存 一 一 试想 一 下 ， 列 表 中 的 单词 需要 两 次 被 装载 进 内 存 中 : 装载 列表 时 一 次 ， 为 每 个 
单词 计数 时 一 次 。 

可 以 对 程序 做 一 些 改进 ， 不 必 一 次 装载 整个 列表 ， 将 列表 存放 在 磁盘 里 ， 使 用 管道 代替 列 
表 ， 在 需要 时 以 流 的 方式 读 入 。 管 道 像 是 一 种 流 : 读 取 排 在 最 前 面 的 100 个 单元 ， 处 理 完 
后 再 读 取 后 100 个 。 

但 是 这 仍然 没 能 解决 潜在 的 问题 ， 如 果 列 表 很 长 ， 且 列表 中 的 每 个 单词 都 不 同 ， 内 存 还 是 
放 不 下 ， 程 序 依然 会 崩 祺 。 另 一 方面 ， 这 段 程 序 可 能 在 绝 大 多 数 情况 下 都 可 正常 工作 ， 因 
为 大 多 数 情况 下 总 会 有 重复 的 单词 出 现 。 写 程序 就 是 这 样 一 种 混乱 的 游戏 。 
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先 别 急 ， 现 在 的 计算 机 不 都 是 多 核 的 吗 ? 让 我 们 把 它们 全 用 上 ! 这 时 ， 带 宽 又 成 了 问题 ， 
让 我 们 再 把 输入 进行 压缩 。 不 能 说 这 些 方法 不 管用 ， 但 是 它们 增加 了 复杂 性 ， 还 有 比 这 些 
更 好 的 方法 ， 但 是 复杂 性 更 高 。 存 储 散 列 值 的 定 长 的 堆 表现 就 不 错 。 堆 是 一 种 数据 结构 ， 
有 点 类 似 半 排 序 的 集合 ， 可 以 扔 掉 那 些 极 小 的 单元 ， 以 避免 将 所 有 东西 都 放 在 内 存 里 。 这 
种 方法 并 非 每 次 都 行 得 通 ， 但 大 多 数 情况 下 是 奏效 的 。 























o. 


i p 还 能 跟 上 吗 ? 
。 你 不 : 必 清 楚 这 里 的 细节 ， 我 们 只 是 想 让 你 知道 为 什么 需要 MapReduce, 
e" * 


现在 ， 使 用 一 台 计 算 机 可 以 处 理 10 兆 数 量 级 的 单词 。 假 设 现在 有 10 台电 脑 ， 
PR 100 兆 数量 级 的 单词 。 每 台电 脑 处 理 1/10 的 单词 ， 然 后 将 结果 汇总 到 一 台 “ 主 控 ” 
脑 。 主 控 电 脑 负责 将 结果 汇总 ， 求 出 出 现 频率 最 高 的 单词 。 


如 有 果 我 们 学 过 网 络 编程 ， 也 可 以 使 用 存储 散 列 值 的 堆 来 解决 这 个 问题 。 








假设 现在 有 100 台电 脑 ， 那 么 就 可 以 处 理 1000 兆 数 量 级 的 单词 。 不 过 问题 又 来 了 ， 由 于 
带宽 有 限 ， 将 每 台电 脑 的 处 理 结果 发 送 到 主 控 电 脑 时 又 行 不 通 了 。 这 时 需要 一 个 树 形 拓扑 
结构 ， 以 10 台电 脑 为 一 组 ， 将 结果 发 送 给 一 个 局 部 的 主 控 电 脑 ， 然 后 这 10 台 局 部 的 主 控 
电脑 再 发 送 到 最 顶级 的 主 控 电 脑 ， 问 题 可 能 就 解决 了 。 

但 是 ， 这 样 的 方法 扩展 到 1000 台电 脑 时 是 否 同样 有 效 ? 答案 是 否定 的 ， 这 种 方式 行 不 通 。 
这 么 多 电脑 ， 总 有 一 两 个 会 坏 掉 ,假设 用 表示 一 台电 脑 是 否 工作 正常 ,= 0 表示 工作 
正常 ,和 = 1 表示 不 正常 ， 那 么 所 有 电脑 工作 正常 的 概率 为 : 


P(X-20)—1-e 
























































这 同时 意味 着 ， 这 1000 台电 脑 中 没有 任何 一 台 工作 不 正常 的 概率 为 ; 


1000 





(1 一 6) 
即使 se 足够 小 ， 这 个 概率 也 是 非常 小 的 。 假 设 电脑 出 错 的 概率 e = 0.001， 那 么 1000 台电 
脑 全 部 工作 正常 的 概率 为 0.37， 还 不 到 一 半 。 这 种 架构 显然 不 够 坚固 。 
那么 我 们 应 该 怎么 做 ? 

想 要 和 弄 明白 这 个 问题 ， 先 得 说 说 分 布 式 系统 的 容错 功能 。 这 通常 需要 对 输入 进行 备份 (EN 
认 将 输入 复制 成 三 份 ) ， 将 每 个 备份 交 给 对 不 同 的 电脑 处 理 ， 如 果 一 份 数 据 处 理 时 损坏 了 ， 
另外 一 个 备份 依然 能 保证 数据 完整 。 还 可 以 将 校 验 码 幅 入 数据 中 ， 这 样 数据 本 身 就 有 具有 了 
校 验 错误 的 能 力 ， 我 们 就 可 以 用 一 台 (或 者 多 台 ) 电脑 来 实现 自动 化 管理 。 
一 般 来 说 ， 需 要 开发 一 个 可 以 探测 到 错误 、 并 能 自动 恢复 的 系统 。 为 了 提高 效率 ， 当 某 些 
机 器 执行 完 任 务 后 ， 可 以 重复 执行 其 他 任务 ， 当 然 ， 免 不 了 还 要 检测 错误 。 
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»»o. 

g 问 : 等 等 ， 我 记得 我 们 是 在 说 计数 。 现 在 ， 我 觉得 我 们 又 若 上 了 另 一 个 麻烦 。 
答 : 事情 总 是 这 样 的 ， 论 证 容错 性 的 效率 并 非 易 事 ， 所 有 的 事情 都 很 复杂 。 
由 ”要 注意 的 是 ， 效 率 和 正确 性 同等 重要 ， 你 的 薪水 可 比 1000 台电 脑 值钱 。 


aa 
QN 











看 起 来 像 是 这 样 : 


。 对 付 10 台电 脑 很 容易 
。 对 付 100 台电 脑 有 点 难 ; 
。 对 付 1000 台电 脑 简 直 是 不 可 能 完成 的 任务 。 


没有 一 点 办 法 ! 
起 码 ， 在 8 年 前 是 这 样 。 现 在 ，David 在 谷歌 动 辑 就 使 用 10 000 台电 脑 组 成 的 集群 。 














初 涉 MapReduce 

2004 年 ，Jeff 和 Sanjay 联合 发 表 了 一 篇 论文 “MapReduce: Simplified Data Processing on 
Large Clusters” (“MapReduce: NM Je 同时 还 有 另外 一 篇 论文 “The 
Google File System”( ”谷歌 文件 系统 ”， 参 见 http://research.google.com/archive/gfs.html) fii 
述 了 MapReduce 架构 的 底层 文件 系统 





MapReduce 是 个 平台 ， 在 这 个 平台 上 ， 程 序 员 不 用 再 考虑 处 理 容错 性 ， 平 台 本 身 就 为 我 
们 提供 了 这 种 服务 .。 它 也 是 一 个 国 数 库 ， 用 它 可 以 做 很 多 过 去 不 敢 想 的 事 。 现 在 ， 使 用 
MapReduce， 在 1000 台电 脑 上 编程 反而 比 过 去 在 100 台电 脑 上 还 简单 。 




















使 用 MapReduce 需要 写 两 个 函数 : 一 个 mapper 国 数 ， 一 个 reducer 国 数 。 这 两 个 国 数 会 在 
分 布 存储 数据 的 各 个 电脑 上 运行 ， 只 要 你 将 算法 放 进 这 种 map/reduce 的 框架 ， 系 统 就 自动 
具备 了 容错 的 功能 


mapper 国 数 将 每 个 数据 点 作为 输入 ， 按 顺序 输出 形 如 ( 键 , 值 ) 这 样 的 二 元 组 列表 ， 然 后 
框架 会 使 用 定向 冒 泡 排 序 对 输出 排序 ， 如 果 键 值 相 同 ， 会 将 两 个 二 元 组 合并 ， 将 值 堆 县 起 
来 。 这 些 堆 最 终 会 被 送 往 执行 reducer 函数 的 机 器 。reducer 函数 使 用 聚合 函数 对 值 进行 聚 
合 ， 得 到 新 的 值 ， 输 出 新 的 CBE ,新 值 ) 列表 。 


来 看 看 如 何 使 用 这 种 方式 解决 上 面 提 到 的 单词 计数 算法 。 以 每 个 单词 为 键 ， 值 设 为 1， 则 
有 如 下 的 二 元 组 : 









































red ---> ("red", 1) 
blue ---> ("blue", 1) 
red ---» ("red", 1) 


然后 对 其 排序 ， 得 到 一 堆 ("red", 1), 1529 ("red", 1, 1)， 然 后 被 送 往 reducer 函数 ，reducer 
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函数 将 所 有 的 1 相 加 ， 最 终结 果 为 : ("red", 2), ("blue", 1). 


这 里 的 关键 是 : 一 个 reducer 处 理 给 定 键 的 所 有 值 。 























如 果 数 据 变 得 越 来 越 多 怎么 办 ?只 要 增加 mapper 和 reducer 的 数量 就 行 了 。 换 句 话说， 使 
用 更 多 的 电脑 。MapReduce 抹 平 了 在 多 台电 脑 上 工作 时 的 复杂 性 。 它 是 如 此 优雅 ， 以 致 人 
们 在 不 需要 的 时 候 也 用 它 〈 然 而 在 谷歌 ， 假 设 数 据 每 晚 呈 100 倍 地 增长 ， 这 种 假设 并 不 算 
疯狂 ) 。 像 所 有 的 工具 一 样 ，MapReduce 被 滥用 了 。 


计数 本 身 是 一 个 简单 的 函数 ， 现 在 被 拆 分 成 了 两 个 函数 。 一 般 情况 下 ， 如 何 将 一 个 算法 拆 
解 成 一 些 列 的 MapReduce 步骤 并 不 是 那么 直观 的 。 


对 于 上 面 提 到 的 单词 计数 问题 ， 单 词 必 须 服从 统一 分 布 。 如 果 所 有 的 单词 都 一 样 ， 那 么 在 
排序 阶段 都 会 汇 入 同一 台 机 器 ， 这 是 个 大 问题 。 谷 歌 使 用 另外 一 种 数据 结构 “ 散 列 存储 桶 
堆 ” 解 决 了 这 个 问题 ， 在 每 个 MapReduce 3& {RAY mapper 函数 中 使 用 该 数据 结构 。 谷 歌 给 
它 起 了 个 名 字 ， 叫 “CountSketch”， 专 门 用 来 处 理 奇异 数据 集 。 


























在 谷歌 ， 有 一 个 监控 器 实时 监控 MapReduce 作业 的 状态 ， 绘 制 成 一 个 条 状 图 ， 每 一 条 和 机 
器 上 的 一 个 任务 对 应 。 如 果 每 个 mapper 函数 运行 正常 ， 条 状 图 看 起 来 就 像 一 条 直线 。 但 
是 通常 情况 下 ， 这 种 现象 并 不 多 见 ， 由 于 数据 并 不 服从 统一 分 布 ， 一 个 键 对 应 太 多 的 值 ， 
在 reduce 阶段 ， 所 有 的 事 看 起 来 都 不 对 了 。 


后 台 需 要 运行 数据 准备 和 写 文件 ， 这 通常 要 花 很 长 时 间 ， 因 此 最 好 在 一 个 返 代 里 将 所 有 事 
做 完 。 这 里 假设 分 布 式 文件 系统 已 经 就 位 ， 我 们 需要 使 用 MapReduce 将 数据 写 和 人 分布 式 文 
件 系 统一 一 上 了 MapReduce 的 船 就 下 不 来 了 。 


当 来 到 优化 阶段 ， 为 一 点 细小 的 性 能 提升 ， 比 如 在 处 理 PB 级 的 数据 时 将 性 能 提升 几 微妙 ， 
可 能 要 绞 尽 脑汁 。 提 升 几 微妙 ， 这 通常 是 物理 学 家 才 会 如 此 关心 的 事 。 这 部 分 优化 是 用 
C++ 实现 的 ， 这 是 一 段 高 度 优化 的 代码 ， 我 们 竭尽 所 能 将 系统 的 性 能 发 挥 到 极致 。 


















































14.5 ”其 他 MapReduce 案 例 


单词 计数 只 是 MapReduce 最 基本 的 案例 之 一 ， 为 了 对 MapReduce 有 一 个 更 全 面 的 认识 ， 
让 我 们 看 看 其 他 一 些 例子 。 能 用 MapReduce 解决 的 问题 有 一 个 重要 特征 : 数据 可 以 被 分 布 
到 多 台 计 算 机 上 ， 且 算法 可 以 在 每 台 计 算 机 上 独立 处 理 数据 ， 即 每 台 计算 机 之 间 是 相互 隔 
离 的 ， 它 们 不 需要 知道 其 他 机 器 在 处 理 什么 。 


























下 面 是 能 使 用 MapReduce 的 另外 一 个 案例 。 假 设 现在 有 记录 用 户 访问 某 网 站 行为 的 数 以 万 
计 的 数据 ， 对 于 每 个 用 户 ， 有 如 下 形式 的 一 行 记录 : (user id, IP address, zip code, ad. 
they_saw，did_they_click}。 假 设 你 想 知 道 不 同行 政 区 域 (根据 不 同 的 邮政 编码 ) 看 到 广告 
的 用 户 数 量 ， 和 看 到 广告 并 且 至 少 点 击 一 次 的 用 户 数量 ， 而 且 不 能 将 一 个 用 户 重复 计算 。 
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怎么 使 用 MapReduce 处 理 上 述 问 题 ? 在 执行 MapReduce 作业 时 ， 以 邮政 编码 作为 
键 ， 假 设 一 个 用 户 所 在 区 域 的 邮政 编码 为 90210， 如 果 他 看 见 广告 并 且 点 击 了 ， 则 有 
(99219,{1,1})， 如 果 他 看 见 了 但 是 没 点 击 ， 记 为 (99210,{9,1})。 




















这 能 带 给 你 什么 呢 ?” 在 reducer 阶段 ， 会 以 邮政 编码 为 组 ， 计 算 用 户 看 到 广告 和 看 到 广告 
并 且 点 击 的 次 数 ， 产 生 形 如 (90210,{700,15530}) 这 样 的 输出 。 但 是 ， 这 不 是 题目 要 求 的 ， 
题目 要 求 用 户 不 能 重复 计算 。 这 需要 两 个 MapReduce。 





第 一 个 MapReduce 使 用 (zip code,user) 作 fi&, (clicks, impressions) 作 f. EE 如 
(190210,user 5321),[0,1]) 或 者 (90210, user 5321) <- {1,1}, reducer 会 根据 每 个 用 户 、 
每 个 邮政 编码 生成 一 个 包含 点 击 次 数 和 看 见 次 数 的 表格 ， 形 如 (user, zipcode, number. 


clicks, number impressions], 








然后 计算 来 自 每 个 行政 区 域 的 不 同 用 户 的 数量 ， 他 们 至 少 点 击 过 一 次 广告 。 这 时 需要 第 二 
个 MapReduce， 以 邮政 编码 作 键 ，{1，ifelse(clicks>0)} 作 值 。 





这 是 使 用 MapReduce 计数 的 另 一 个 演示 ， 但 是 MapReduce 能 做 点 更 复杂 的 事 吗 ? 比如 实 
现 一 个 统计 模型 ， 线 性 回归 什么 的 。 这 可 能 吗 ? 





答案 是 肯定 的 。2006 年 发 表 的 一 篇 论文 阐述 了 如 何 使 用 MapReduce 实现 各 种 类 型 的 机 器 
学 习 算 法 (http;//machinelearning.wustl.edu/mlpapers/paper. files/NIPS2006 725.pdf), 。 有 些 算 
法 在 计算 各 种 统计 量 和 变化 率 时 需要 先 计算 期 望 值 和 求 和 ， 此 时 就 可 以 使 用 该 论文 描述 的 
方法 。 因 为 这 些 计算 可 以 批量 处 理 ， 可 以 表示 为 不 同 数 据点 上 的 和 。 





MapReduce 不 能 做 什么 

有 时 候 ， 了 解 一 件 事 是 什么 ， 可 以 帮助 了 解 它 不 是 什么 。 那 么 ， 什 么 是 MapReduce 不 能 
做 的 呢 ? 不 能 做 的 事 太 多 了 ， 比 如 给 我 们 发 个 消息 。 认 为 所 有 和 数据 相关 的 问题 都 能 使 用 
MapReduce 的 方式 解决 ， 这 也 是 可 以 谅解 的 。 


但 是 MapReduce 并 不 适合 迭代 式 的 算法 一 一 计算 时 将 上 一 次 的 输出 作为 下 一 次 计算 的 输 
入 ， 很 多 机 器 学 习 算 法 都 如 此 ， 它 们 在 计算 最 速 下 降 收敛 方法 是 都 用 这 样 的 方式 。 如 有 果 你 
非 要 坚持 使 用 MapReduce， 这 仍然 是 可 能 的 ， 但 这 需要 在 引擎 里 四 处 修改 。 有 一 些 新 的 方 
法 更 适合 处 理 这 种 情况 ， 比 如 Spark， 它 执行 起 来 效率 更 高 。 





















































14.6 Pregel 

为 了 和 MapReduce 对 比 ， 我 们 再 介绍 另 一 种 处 理 大 数据 的 算法 : Pregel。 该 算法 同样 出 自 
谷歌 ， 它 是 一 种 基于 图 的 计算 方法 ， 这 里 可 以 将 数据 想象 成 一 种 图 状 或 网 状 的 数据 结构 ， 
连通 的 布点 之 间 可 以 互相 交换 信息 。 同 时 还 有 聚合 布点 ， 可 以 获取 所 有 节点 上 的 信息 ， 然 
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后 在 其 上 进行 求 和 或 计算 平均 数 之 类 的 运算 。 


该 算法 的 基础 是 运行 于 节点 之 间 的 一 些 超 级 步骤 ， 它 将 信息 从 一 个 节点 送 往 另 一 个 节 
点 ， 从 一 般 节 点 送 往 聚合 节点 。 该 算法 的 论文 在 网 上 可 以 找到 (http://dl.acm.org/citation. 
cftm?id=1807184) ， 同 时 该 算法 还 有 一 个 叫 Giraph 的 开源 实现 (http:/giraph.apache.org/)。 





14.7 关于 Josh Wills 


Josh Wills 是 Cloudera 的 数据 科学 主管 ， 带 领 工 程 师 为 来 自 各 个 行业 的 客户 提供 基于 Hadoop 
的 解决 方案 ， 稍 后 会 介绍 更 多 关于 Cloudera 和 Hadoop 的 内 容 。 在 加 入 Cloudera 之 前 ， 他 为 
谷歌 工作 ， 在 那里 开发 广告 竞拍 系统 ， 后 来 领导 开发 了 Google+ 项 目的 数据 分 析 基 础 架构 。 
他 在 杜 克 大 学 取得 了 数学 学 士 学 位 ， 在 奥 斯 订 的 田纳西 大 学 取得 了 运筹 学 硕士 学 位 。 


Josh Wills 因 对 数据 科学 发 表 的 一 些 精辟 格言 而 于 名 ， 比 如 ， 他 曾 说 “我 让 数据 发 光 发 
热 "， 本 书 开始 也 引用 了 他 对 数据 科学 家 的 定义 “数据 科学 家 (名 词 )， 是 软件 工程 师 里 最 
懂 统 计 的 ， 统 计 学 家 里 最 会 编程 的 "， 还 有 “我 是 阿 甘 ， 我 有 一 柄 牙刷 ， 我 有 很 多 的 数据 ， 
我 的 工作 就 是 对 着 它 没 日 没 夜 的 刷 ”。 

















Josh Wills 以 一 个 思维 实验 引入 了 他 的 主题 。 


14.8 ”思维 实验 
如 何 建 造 一 架 人 力 飞 机 ?你 会 怎么 做 ?你 应 该 如 何 组 建 一 个 团队 ? 


也 许 你 会 搞 个 有 奖 竞赛 (X prize， 参 见 http://www.xprize.org/)。 有 人 就 是 这 样 干 的 ， 他 们 
在 1950 年 悬赏 5 万 美元 。 十 年 后 ， 才 有 人 拿 到 了 那 笔 奖金 。 获 胜 者 的 故事 值得 我 们 在 这 
里 讲述 ， 因 为 它 说 明了 人 们 有 时 候 致 力 于 解决 的 问题 本 身 就 是 错误 的 。 

最 初 的 几 个 团队 花 了 几 年 时 间 做 计划 ， 然 后 飞机 飞 上 天 几 秒 钟 就 落下 来 摔 得 粉碎 。 而 赢得 


比赛 的 那个 团队 则 换 了 个 思路 : 如 何 建造 一 架 出 事后 在 4 小 时 内 就 能 恢复 的 飞机 ? 经 过 几 
轮 快速 的 原型 选 代 ， 他 们 成 功 了 ， 只 用 了 6 个 月 。 


米 j| 8A * 

14.9 ”给 数据 科学 家 的 话 

通过 对 数据 科学 家 日 常 工 作 的 观察 ，Josh 发 现 90% 的 时 间 都 被 用 来 清理 和 准备 数据 。 在 解 
决 问题 和 获得 铜 见 之 间 ， 数 据 科 学 家 往往 选择 前 者 。 更 确切 地 说 ， 从 一 个 问题 出 发 ， 确 保 
它 有 值得 优化 的 地 方 ， 然 后 并 行 化 处 理 所 有 事情 。 

天 资 聪颖 当然 是 件 好 事 ， 但 是 能 够 快速 学 习 更 好 ， 立 即 着 手 实验 ， 立 即 从 中 学 习 到 有 用 的 
东西 。 
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14.9.4 数据 丰富 和 数据 匮乏 

大 多 数 人 偏向 保守 ， 他 们 选择 丢弃 那些 看 似 无 用 的 东西 ， 习 惯 使 用 有 限 的 数据 思考 问题 。 
Josh 选择 保留 一 切 。 他 是 可 重复 性 研究 的 粉丝 ， 所 以 他 希望 能 够 重 现 分析 过 程 中 的 任何 阶 
段 。 这 样 做 有 两 个 原因 。 首 先 ， 如 果 犯 错 ， 他 不 用 把 一 切 推倒 重 来 。 其 次 ， 当 有 新 的 数据 
时 ， 很 容易 集成 到 当前 工作 流程 中 来 。 























14.9. ”设计 模型 

模型 不 免 最 终 沦 为 疯狂 的 鲁 布 : 戈 德 堡 机 械 (Rube Goldberg machine， 是 一 种 设计 得 过 度 
复杂 的 机 械 组 合 ， 以 迁 回 曲 折 的 方法 去 完成 一 些 其 实 是 非常 简单 的 工作 ， 例 如 倒 一 杯 茶 ， 
或 打 一 只 和 蛋 等 )， 一 堆 模 型 的 大 杂烩 。 这 并 不 总 是 件 坏事 ， 只 要 模型 能 工作 ， 就 没有 问题 。 
即使 以 一 个 简单 的 模型 开始 ， 最 终 还 是 会 添 添补 补 ， 变 得 复杂 起 来 。 这 种 事 一 再 发 生 ， 没 
办 法 ， 这 就 是 设计 模型 的 本 质 。 

认 清 分 歧 

为 模型 做 优化 和 为 业务 做 优化 是 不 同 的 。 

比如 ，Facebook 的 朋友 推荐 系统 并 不 用 来 帮助 你 王选 那些 真正 志趣 相投 的 朋友 ， 它 是 为 了 


让 你 在 Facebook 网 站 上 花费 尽 可 能 多 的 时 间 。 你 想 想 ， 推 荐 给 你 的 朋友 是 不 是 都 是 些 迷人 
的 异性 ? 
























































其 他 领域 又 是 什么 情况 呢 ? 在 医疗 机 构 ， 他 们 研究 某 种 药物 的 疗效 而 不 是 患者 的 健康 ， 他 
们 通常 关心 手术 是 否 成 功 ， 而 不 是 患者 的 幸福 。 


14.10 算 算 Hadoop 的 经 济 账 


让 我 们 回 过 头 来 再 看 看 MapReduce 和 Hadoop。2001 Æ, Josh 刚 从 学 校 毕业 ， 当 时 存储 文 
件 有 两 种 选择 : 数据 库 和 存储 文件 管理 器 ，Josh 从 模式 、 处 理 能 力 、 可 靠 性 和 花 销 四 个 维 
度 对 二 者 进行 了 对 比 。 


























表 14-1: 2001 年 时 可 选 的 文件 存储 类 型 











数据 库 存储 文件 管理 器 
模式 结构 化 的 非 结 构 化 的 
处 理 能 力 强大 的 数据 处 理 能 力 没有 数据 处 理 能 力 
可 靠 性 DES 非常 可 靠 
花 销 存储 大 规模 数据 时 花费 高 存储 大 规模 数据 时 花费 高 











现在 产生 的 数据 越 来 越 多 ， 其 中 大 部 分 来 自 网 页 。 这 自然 引出 了 衡量 投入 产 出 比 的 经 济 学 
指标 : 字 市 价值 。 从 一 字 市 的 数据 里 我 们 可 以 获取 多 少 价值 ? 存储 它 又 要 花费 多 少 钱 ? 如 
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果 我 们 求 两 者 的 比值 ， 则 希望 这 个 比值 大 于 1， 否 则 不 如 丢弃 这 些 数 据 。 


当然 ， 这 不 是 故事 的 全 部 。 有 一 个 有 关 大 数据 的 经 济 学 定律 : 任何 单条 记录 部 不 是 特别 有 
用 的 ， 但 是 拥有 所 有 的 记录 则 价值 连城 。 比 如 ， 对 于 网 页 索引 、 推 荐 系统 、 传 感 器 数据 、 
在 线 广 告 等 系统 ， 如 果 拥 有 现存 的 所 有 数据 是 特别 有 用 的 ， 但 单独 的 每 个 数据 点 其 实 是 没 
有 什么 价值 的 。 


























14.10.1 Hadoop 简 介 

在 谷歌 还 没有 像 今天 这 样 有 钱 时 ， 它 们 的 硬件 简直 差劲 极 了 。 为 了 处 理 数据 ， 他 们 想 出 了 
一 个 主意 ， 将 数据 拷贝 到 多 台 服 务 器 上 。 一 开始 ， 他 们 手动 拷贝 ， 后 来 变 成 自动 化 的 ， 这 
个 自动 化 的 过 程 后 来 发 展 成 全 局 文件 系统 GFS。 




















Hadoop 是 谷歌 的 GFS 和 MapReduce 的 开源 实现 (读者 可 以 在 其 他 地 方 了 解 到 关于 
Haddop 起 源 的 故事 ， 这 里 我 们 只 给 出 两 点 提示 : 有 一 个 叫 Nutch 的 开源 项 目 ， 雅 虎 公 司 
也 参与 其 中 )， 它 的 核心 分 成 两 部 分 。 第 一 部 分 是 分 布 式 文件 系统 (HDFS)， 它 是 基于 谷 
歌 的 文件 系统 。 数 据 存 储 在 大 文件 里 ， 文 件 块 的 大 小 通常 为 64 ~ 256 MB。 这 些 文件 块 
被 复制 到 集群 中 的 多 个 节点 上 。 如 果 一 个 节点 宕 机 ， 主 控 节 点 会 得 到 通知 。 第 二 部 分 是 
MapReduce, David Crawshaw 已 经 在 前 面 讲 过 了 ， 这 里 不 再 殉 述 。 

















Hadoop 是 用 Java 实现 的 ， 谷 歌 的 那 一 摊子 是 用 C++ 实现 的 。 使 用 Hadoop 提供 的 Java 
API 编写 MapReduce 程序 并 不 会 令 人 感到 愉快 ， 有 时候 需要 写 大 量 的 MapReduce。 但 是 ， 
如 果 使 用 Hadoop 流 ， 则 可 以 使 用 Python、R 或 其 他 高 级 编程 语言 。 这 使 得 编写 并 行 任务 
程序 变 得 简单 方便 。 





14.10.2 Cloudera 

Cloudera 是 由 Doug Cutting 和 Jeff Hammerbacher 共同 创建 的 ， 前 一 位 是 Hadoop 的 创始 人 
之 一 ， 后 一 位 我 们 在 第 1 章 提 起 过 ， 在 Facebook 工作 期 间 ， 他 率先 提出 了 “数据 科学 家 ” 
这 个 职位 ， 并 为 Facebook 组 建 了 数据 科学 团队 。 








Cloudera 之 于 Hadoop 就 像 Red Hat 之 于 Linux， 同 样 都 是 围绕 一 个 开源 项 目 创立 了 一 家 公 
司 。Hadoop 是 由 Apache 软件 基金 会 赞助 的 ， 代 码 是 免费 的 ， 但 是 Cloudera 将 所 有 东西 打 
包 ， 并且 免费 提供 各 个 版 本 ， 它 靠 为 客户 提供 技术 支持 和 服务 赚钱 ， 赚 回来 的 钱 反 过 来 又 
可 以 反哺 项 目 ， 使 Hadoop 得 到 更 好 的 发 展 。 




















Apache Hive (http://hive.apache.org/) 是 建造 于 Hadoop 之 上 的 一 个 数据 仓库 系统 ， 它 使 用 
类 似 SQL 的 查询 语言 (包括 某 些 特定 的 MapReduce 扩展 )， 实 现 了 常见 的 合并 和 聚合 操 
作 。 对 于 精通 数据 库 和 熟悉 这 些 操作 的 人 来 说 ， 这 是 再 好 不 过 了 。 
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14.11 Josh 的 工作 流程 


来 看 看 Josh 是 如 何 使 用 MapReduce 打造 数据 管道 的 ， 他 将 一 条 记录 视 为 数据 分 析 的 基本 

单元 。 我 们 不 止 一 次 的 提 及 “打上 时 间 惟 的 活动 数据 "， 你 可 以 将 每 一 条 视 作 一 项 记录 ， 

或 者 像 前 面 讨论 过 的 交易 记录 ， 比 如 欺诈 检测 、 信 用 卡 交 易 。 一 个 典型 的 工作 流程 如 下 : 

(1) 使 用 Hive (一 种 运行 在 Hadoop 上 的 类 SQL 语言 ) 将 你 对 某 实 体 的 了 解 情况 创建 为 记 
录 (比如 一 个 人 ) 一 一 这 里 会 使 用 到 大 量 的 MapReduce) ; 

(2) 编写 Python 脚本 反复 处 理 这 些 记录 (速度 要 快 ， 迭 代 要 快 ， 同 时 还 会 用 到 MapReduce) ; 

(3) 当 有 新 数据 时 ， 及 时 更 新 记录 。 


要 注意 第 (2) 步 的 脚本 通常 只 是 map 作业 ， 它 让 并 行 化 变 得 简单 。 


























Josh 更 喜欢 标准 的 数据 格式 : 巨大 的 文本 占据 了 空间 ， 而 Thrift (http://en.wikipedia.org/ 
wiki/Apache Thrift), Avro (http://en.wikipedia.org/wiki/Apache Avro) 和 协议 缓存 (http:/ 
en.wikipedia.org/wiki/Protobuf) 是 一 种 更 紧凑 的 二 进 制 数据 结构 。Josh 还 鼓励 大 家 使 用 用 
来 存储 代码 和 元 数据 的 Github (https://github.com/) ， 他 不 使 用 Git 存储 大 文件 。 


14.12 ”如 何 开始 使 用 Hadoop 


如 果 你 所 在 公司 拥有 Hadoop 集群 很 有 可 能 你 和 Hadoop 的 第 一 次 亲密 接触 是 通过 
Apache Hive， 它 在 HDFS 和 MapReduce 之 上 ,提供 了 一 种 类 似 SQL 风格 的 抽象 层 。 你 的 
第 一 个 MapReduce 作业 很 可 能 是 通过 对 记录 用 户 行为 的 日 志 进 行 分 析 ， 来 更 好 地 了 解 客户 
如 何 使 用 公司 的 产品 。 


如 果 你 要 使 用 Hadoop 和 MapReduce 编写 自己 的 分 析 应 用 ， 有 很 多 途径 可 以 上 手 。 使 用 
Apache Mahout 搭建 一 个 推荐 引擎 就 是 一 个 很 好 的 选择 。Apache Mahout 包含 了 一 些 机 器 
学 习 的 程序 库 和 命令 行 工具 ， 可 以 和 Hadoop 一 起 工作 。 它 有 一 个 叫 作 Taste 的 协同 过 滤 
引擎 ， 使 用 它 ， 给 定 一 个 CSV 文件 ， 包 含 用 户 ID、 物 品 ID 和 一 个 可 选 的 ， 表 征用 户 和 物 
品 联系 紧密 程度 的 权重 信息 ， 就 可 以 创建 一 个 推荐 引擎 。Taste 使 用 的 推荐 算法 和 Netflix、 
亚马逊 使 用 的 推荐 算法 都 是 一 样 的 。 
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第 15 章 


听 听 学 生 们 怎么 说 





一 一 Emily Bell ， 哥 伦比 亚 大 学 新 闻 学 院 
数字 新 闻 学 塔 尔 中 心 主任 


我 们 邀请 了 最 早 一 批 选 修了 数据 导论 课程 的 学 生来 写作 本 章 ， 他 们 分 享 了 对 本 课 的 想法 
和 自己 的 学 习 经 历 。 参 与 编写 本 章 内 容 的 同学 有 : Alexandra Boghosian, Jed Dougherty、 
Eurry Kim、Albert Lee、Adam Obeng 和 Kaz Sakamoto。 


15.1 重 在 过 程 


开始 学 习 数据 科学 时 ， 你 别 无 选择 ， 只 能 从 最 前 治 的 地 方 开始 ， 因 为 数据 科学 本 身 就 处 在 
科技 发 展 的 最 前 沿 。 


物理 学 的 入 门 课程 通常 从 易 到 难 ， 先 介绍 经 典 力 学 、 电 磁 学 ， 然 后 过 渡 到 近代 物理 ， 比 如 
狭义 相对 论 之 类 。 但 是 这 种 循序 渐进 的 教学 方式 并 未 揭示 物理 学 原理 的 发 现 过 程 ， 比 如 ， 
牛顿 究竟 是 如 何 发 明了 微 积 分 ?” 没 人 教 给 我 们 这 个 发 现 的 过 程 。 牛 顿 是 如 何 做 到 的 ? 我们 
不 知道 他 使 用 了 什么 工具 ， 他 读 了 什么 书 。 他 记 笔 记 吗 ? 他 有 没有 尝试 复 现 别 人 的 证 明 ? 
他 集中 精力 解决 的 问题 是 否 来 源 于 他 上 次 写 的 某 篇 文章 ? 到 底 是 什么 促使 他 去 想 “ 我 必须 
有 极限 才能 解决 这 个 问题 ”? 牛顿 演算 时 需要 打 草 稿 吗 ? 还 是 说 很 多 想法 在 他 心中 早已 成 
型 ， 看 见 苹 果 落 地 时 磁 巧 都 涌现 出 来 了 ? 这 些 东 西 是 教 不 来 的 ， 但 又 是 我 们 必须 学 会 的 ， 
那些 初出 茅 庐 的 科学 家 必须 学 会 这 个 过 程 。 


















































Rachel 在 数据 科学 导论 的 第 一 堂 课 上 就 严肃 告诫 我 们 : 无 论 在 学 术 界 还 是 工业 界 ， 数 据 科 
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学 尚 在 定义 之 中 。 在 接 下 来 的 课程 里 ， 我 们 遇见 了 实 实在 在 的 问题 ， 并 且 看 到 老师 们 是 如 
何在 这 些 问 题 中 选择 他 们 想 要 研究 的 课题 。 实 际 上 ， 每 周 的 课程 都 覆盖 了 数据 科学 家 需要 
用 到 的 工具 和 技术 ， 只 是 每 节 课 都 有 它 自 己 的 风格 和 背景 ， 解 决 问题 的 方式 也 不 一 样 。 几 
乎 在 每 一 闻 昌 上， 老师 们 都 会 说 :“ 我 不 知道 你 们 之 前 都 学 了 些 人 什么， 但 是 ……” 课程 是 
离散 的 ， 我 们 要 负责 将 这 些 残 章 断 片 拼 成 一 个 关于 数据 科学 的 完整 介绍 。 我 们 要 从 课程 里 
发 所 出 对 自己 有 用 的 部 分 ， 就 像 数 据 科学 家 们 在 持续 不 断 地 建造 他 们 自己 的 领域 。 


这 并 不 是 说 Rachel 有 意 要 将 我 们 蒙 在 鼓 里 。 在 课程 的 第 一 天 ， 她 就 提出 了 一 个 数据 科学 家 
的 定义 ， 她 说 ， 数 据 科学 家 就 是 兼 具 如 下 能 力 的 人 : 数学 、 统 计 学 、 计 算 机 科学 、 机 器 学 
习 、 可 视 化 、 沟 通 的 技巧 和 行业 知识 。 随 后 我 们 马上 发 现 ， 就 像 我 们 理解 的 贝 叶 斯 定理 一 
样 ， 这 只 是 些 先 验 知识 。 同 学 们 和 讲师 们 都 根据 这 个 定义 ， 对 自己 做 了 评估 ， 为 数据 科学 
界 提供 了 多 样 性 的 写照 ， 并 且 这 份 评估 也 作为 参考 ， 贯 穿 课程 始终 。 担 任 该 课 的 讲师 们 来 
自学 术 界 、 金 融 业 、 科 技 公司 和 初创 公司 ， 他 们 有 的 在 研究 生 期 间 就 中 途 退 学 ， 有 的 则 是 
Kaggle 竞赛 的 获胜 者 ， 还 有 数字 艺术 家 。 每 个 人 都 提供 了 更 进一步 的 似 然 比 。 课 程 本 身 就 
在 对 数据 科学 进行 迭代 式 的 定义 。 















































但 是 我 们 并 不 是 每 周 都 在 课堂 上 听 他 们 谈论 自己 的 工作 。 通 过 完成 大 量 很 难 的 作业 ， 我 们 
学 会 了 数据 科学 研究 所 使 用 的 工具 。 有 时 候 ， 作 业 要 求实 现 课堂 上 讨论 的 技术 和 概念 ， 
时 候 我 们 则 需要 自己 去 发 现 和 探索 还 不 知道 的 技术 。 








另外 ， 我 们 面 对 的 是 混乱 的 真实 数据 。 我 们 经 常 要 去 解决 工业 界 内 的 真实 问题 ， 并 且 需 要 
最 终 形成 一 份 清晰 和 深刻 的 报告 。 这 份 报告 ， 即 使 拿 给 业界 的 专家 看 ， 我 们 也 会 感到 自 
豪 。 最 重要 的 ， 为 了 完成 作业 ， 我 们 经 常 要 跨 出 自己 的 舒适 区 。 在 这 里 ， 强 调 了 数据 科学 
的 社会 性 ， 作 业 和 项 目 都 需要 分 成 小 组 ， 大 家 合作 完成 。Rachel 还 常常 带领 我 们 和 当日 的 
讲师 ， 穿 过 街道 去 酒吧 坐 坐 '。 就 这 样 ， 在 整个 学 期 里 ,我 们 大 家 一 起 工作 ， 一 起 喝酒 ， 互 
相 学 习 ， 共 同学 习 从 事 数据 科学 工作 需要 的 技能 。 


15.2 不 再 简单 


真正 的 挑战 来 了 ， 第 二 个 作业 (4.7 市 ) 的 第 三 小 节 ， 要 求 从 《纽约 时 报 》 的 官方 网 站 上 
下 载 2000 篇 文章 ， 并 且 通 过 这 些 文 章 训 练 出 一 个 朴素 贝 叶 斯 分 类 器 ， 按 文章 出 现 的 不 同 
版 面 对 其 进行 排序 。 但 是 那个 网 站 一 次 只 允许 下 载 20 篇 文章 ! 抓 取 这 些 文 章 只 是 万 里 长 
征 的 第 一 步 ， 我 们 还 要 亲自 编写 代码 实现 贝 叶 斯 公式 ， 唯 一 能 帮 我 们 的 也 就 是 老师 给 出 的 
几 个 公式 。 很 多 编程 语言 都 有 现成 的 实现 ， 倒 不 是 说 这 些 实现 对 我 们 没有 帮助 ， 我 们 的 实 
现 有 一 些 特 别 的 需求 ， 我 们 要 求 正 则 化 的 超 参数 是 可 调 的 ， 作 业 还 要 求 将 文章 分 为 5 类 ， 
而 不 是 两 类 。 我 们 听 说 朴素 贝 叶 斯 并 不 是 那么 “朴素 "， 也 不 是 很 “ 贝 叶 斯 ”， 它 的 实现 并 






















































































注 1: Rachle 注释 说 “这 是 一 门 研究 生 课 程 ， 我 确保 学 生 们 都 到 了 可 以 喝酒 的 年 龄 ， 而 且 为 不 喝酒 的 同学 我 
们 也 提供 了 非 酒精 类 饮品 。 
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没有 用 到 贝 叶 斯 模型 。 结 果 正 是 如 此 ， 朴 素 贝 叶 斯 不 简单 。 然 而 ， 我 们 中 的 有 些 人 还 是 坚 
持 下 来 了 ， 他 们 在 教室 里 歼 了 40 个 小 时 去 打磨 一 段 大 概 300 多 行 、 令 人 反胃 的 R 代码 ， 
最 终 使 模型 的 预测 准确 度 达到 了 90% ， 别 提 有 多 高 兴 了 ! 我 们 立刻 对 这 件 事 上 瘾 了 ， 当 
然 ， 也 可 能 是 我 们 不 忍心 丢掉 沉没 成 本 一 一 那些 在 这 个 作业 上 花 的 精力 和 时 间 。 总 之 ， 我 
(1 EXR T. K 15-1 是 一 位 同学 的 答案 








3.《 纽 约 时 报 》 
朴素 贝 叶 斯 分 类 器 


下 表 对 比 了 使 用 我 们 实现 的 村 预测 部 分 
素 贝 叶 斯 分 类 器 对 文章 分 类 的 世界 
结果 。 右 边 使 用 了 一 张 热 图 显 
示 了 预测 变量 。 总 体 上 ， 分 类 

器 的 准确 率 达 到 88.6% 体育 
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15-1: 一 位 同学 的 部 分 答案 ( 另 见 彩 插图 15-1) 


参加 Kaggle 竞赛 是 最 后 的 大 作业 的 一 部 分 ， 它 给 了 我 们 另辟蹊径 的 机 会 。 作 业 是 在 学 

们 中 间 进 行 一 场 竞 赛 ， 设计 一 个 论文 评分 的 算法 。 um ca ed 
家 们 的 工作 内 容 ， 而 Kaggle 竞赛 是 数据 科学 界 的 一 个 一 决 肉 雄 的 比赛 ， 它 鼓励 我 们 将 课 
堂上 学 到 的 所 有 关于 数据 科学 的 最 佳 方法 都 应 用 上 ， 同 时 又 使 得 我 们 可 以 亲历 经 典 的 数据 
科学 活动 。 本 书 的 作者 之 一 的 方案 引入 了 如 下 特征 变量 : 拼写 错误 的 个 数 、Dale-Chall 单 
词 列表 (这 是 一 个 四 年 级 学 生 应 该 掌握 的 词汇 表 )、 论 文中 最 常 出 现 的 签 50 个 单词 的 TF- 
IDF 向 量 、 论 文 单词 数 的 四 次 方 根 。 别 问 我 为 什么 ， 方 案 使 用 了 随机 森林 模型 和 Gradient 
boosting 算法 ， 并 且 实 现 了 随机 超 参 数 优化 ， 在 亚马逊 提供 的 EC2 平台 上 运行 了 几 千 个 小 
时 ， 训 练 了 5 万 个 模型 ， 它 很 管用 。 


15.3 ”援助 之 手 


在 课程 的 前 半 程 ， 我 们 遇见 了 客座 讲师 Jake Hofman。 你 还 记得 第 一 次 看 见 魔 术 时 的 情景 
吗 ? 没 错 ，Jake 的 课 就 像 在 你 眼皮 底下 表演 魔术 。 仅 仅 用 了 一 些 简 单 的 Unix 系统 命令 和 
数据 ， 他 就 在 我 们 面前 话 生生 写 出 了 一 个 朴素 贝 叶 斯 垃圾 邮件 分 类 器 。 在 黑板 上 写 了 一 串 
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数学 公式 后 ， 他 现场 下 载 了 安然 公司 的 email 数据 ， 然 后 通过 高 超 的 命令 行 技巧 分 析 了 这 
些 数据 。 


在 每 周一 次 的 课堂 上 ， 都 有 超级 棒 的 讲师 们 来 给 我 们 做 讲座 。 其 中 ，Jared Lander 和 Ben 
Reddy 主要 负责 辅导 我 们 的 课 后 实验 ， 在 他 们 的 帮助 下 ， 我 们 才 得 以 在 这 门 快 市 奏 的 课 上 
不 掉队 。 他 们 给 我 们 展示 了 数据 科学 的 结构 。 我 们 的 课程 覆盖 广泛 ， 从 线性 回归 到 随机 森 
林 算 法 。 我 们 还 认识 了 很 多 新 的 工具 : 正则 表达 式 、LaTex、SQL、R、Shell MÆ, git, 
Python。 我 们 掌握 了 通过 API 和 网 页 抓 取 获 取 新 数据 源 的 关键 技术 。 


来 上 这 个 课 的 人 五 花 八 门 ， 每 个 人 都 有 需要 补充 的 知识 。 计 算 机 科学 家 需要 快速 学 会 基本 
的 特征 选择 理论 和 使 用 R 语言 ， 社 会 学 家 需要 了 解数 据 库 的 工作 原理 ， 需 要 知道 全 局 变量 
和 局 部 变量 的 区 别 ， 金 融 专业 的 需要 学 点 道德 伦理 。 大 家 的 学 业 负 担 都 各 不 相同 。 通 过 慢 
条 斯 理 地 用 R 写 循 环 (虽然 最 终 发 现 还 写 错 了 )， 或 是 思考 程序 如 此 低 效 的 原因 ， 我 们 的 
知识 在 一 点 一 点 增加 。 图 15-2 即 是 我 们 从 众多 教训 中 学 到 的 一 例 。 




























































































45 EOZ ETE predict(model,as.matrix(testmatrix),type 





15-2: 从 教训 中 学 到 的 


随 着 技能 的 增加 ， 我 们 能 更 多 的 将 精力 放 在 如 何 分 析 数 据 上 。 最 终 ， 我 们 做 到 了 眼中 无 代 
码 、 心 中 有 想法 的 境界 。 


这 些 是 仅 赁 个 人 能 力 就 能 做 到 的 吗 ? 有 人 能 拿 下 所 有 的 东西 吗 ? 


这 需要 花费 数 小 时 不 停 地 和 错误 做 斗争 ， 才 能 越过 学 习 曲 线 ， 这 时 我 们 才 领 略 到 了 数据 科 
学 之 美 。 为 了 按时 完成 作业 ， 我 们 需要 互相 学 习 ， 参 加 本 课 的 同学 大 都 拥有 不 同 的 背景 
知识 。 


事实 上 ， 为 了 完成 作业 ， 找 到 知识 结构 上 和 自己 互补 的 同学 甚至 是 必须 的 。Rachel 虽然 没 
有 要 求 我 们 团队 协作 ， 但 她 布置 了 大 量 作业 ， 其 中 不 少 作业 所 需要 的 知识 点 都 比较 分 散 。 
我 们 不 得 不 自发 组 成 团队 。 原 来 Rachel 是 要 让 我 们 知道 ， 数 据 科学 本 质 上 是 一 门 需要 合作 
的 学 科 。 开 课 之 初 ，Rachel 向 我 们 展示 了 一 种 类 似 汽车 轮 载 状 的 网 络 ， 她 让 我 们 绕 她 围 成 
一 圈 ， 辐 条 将 每 个 人 和 她 连 在 一 起 。 她 希望 在 课堂 上 ， 我 们 可 以 建立 起 新 的 友谊 、 提 出 新 
的 想法 、 完 成 新 的 项 目 、 形 成 新 的 联系 。 




















对 于 这 种 刚刚 萌芽 的 学 科 ， 参 与 到 社区 中 去 变 得 异常 重要 。 以 数据 科学 为 例 ， 社 区 不 仅 利 
于 职业 生涯 发 展 ， 而 且 对 于 从 事 日 常数 据 科学 相关 活动 也 很 重要 。 如 果 你 不 读 相 关 的 博 
客 、 关 广 推 荐 上 的 人 ， 或 者 不 参加 行业 内 的 聚会 ， 你 如 何 能 知道 最 新 的 分 布 式 软件 ， 或 者 
对 于 某 篇 著名 文章 中 用 到 的 统计 学 方法 ， 业 内 出 现 了 驳斥 声音 ?社区 与 我 们 息息相关 ， 在 
四 月 份 的 一 次 聚会 上 ，Cathy 谈 起 了 MapReduce， 她 马上 可 以 就 一 个 问题 咨询 在 场 的 观众 
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Nick Avteniev 一 一 他 是 这 方面 的 专家 。 在 社区 里 ， 这 样 的 事 经 常 发 生 。 数 据 科学 的 知识 体 
系 是 不 断 在 变化 的 ， 而 且 分 散在 不 同 地 方 。 要 知道 哪些 知识 是 你 应 该 掌握 的 ， 唯 一 方法 是 
看 看 别人 都 知道 些 什么 。 邀 请 不 同 领域 的 讲师 来 讲课 为 我 们 开启 了 这 一 旅程 。 所 有 的 讲师 
都 乐于 回答 我 们 的 问题 ， 他 们 给 我 们 留 了 他 们 的 电子 邮件 地 址 ， 有 些 甚至 为 我 们 提供 了 工 
作 机 会 。 























在 听 过 这 些 专家 的 课 ， 并 且 和 他 们 聊 过 之 后 ， 我 们 有 了 更 多 的 问题 。 怎 么 样 在 R 里 创建 
个 时 间 序 列 对 象 ? 为 什么 为 那个 该 死 的 矩阵 绘制 散 点 图 时 不 断 的 出 错 ? 随机 森林 到 底 是 
什么 鬼 东 西 ? 我 们 不 仅 求助 于 周围 的 同学 ， 还 同时 求助 于 网 上 社区 ， 比 如 Stack Overflow, 
谷歌 新 闻 组 和 有 关 R 的 博客 。 我 们 惊喜 的 发 现 ， 有 那么 多 社区 帮助 像 我 们 这 样 的 菜鸟 数 
据 科学 家 成 长 ， 帮 助 我 们 让 自己 的 代码 跑 起 来 。 我 们 不 仅仅 从 以 前 遇 到 类 似 问 题 的 人 那里 
得 到 答案 ， 这 些 答案 早 就 被 发 明 这 些 方法 的 先驱 们 解答 过 了 。 比 如 Hadley Wickham, Wes 
McKinney, Mike Bostock， 都 为 他 们 写 的 程序 包 提 供 支 持 。 酷 毙 了 ! 


15.4 ”殊途同归 


世上 并 不 存在 柏拉图 式 的 数据 科学 知识 仓库 ， 让 你 在 里 面 浸 泽 一 下 就 能 掌握 相关 知识 技 
能 。 数 据 科学 中 所 涉猎 的 各 学 科 都 各 有 优势 ， 其 专业 词汇 各 不 相同 ， 有 时 对 同样 的 方法 也 
有 不 同 的 解释 (正则 化 参数 是 先 验 概率 还 是 仅仅 为 了 平滑 曲线 ?我 们 该 通过 原则 性 理由 还 
是 为 了 要 最 大 化 拟 合 模型 选择 参数 ? ) 没有 什么 现成 的 规矩 可 循 ， 因 为 规矩 还 没 定 出 来 ， 
这 就 是 为 什么 交互 作用 的 结构 如 此 重要 的 原因 : 你 可 以 制定 自己 的 规 插 。 你 可 以 自行 选择 
接受 谁 的 影响 ， 像 Gabriel Tarde 说 的 那样 (Bruno Latour, Mark Hansen 都 曾 援引 他 的 话 ) : 


| 






























































当 一 个 年 轻 的 农民 看 到 日 落 时 ， 不 知道 他 是 选择 相信 老师 说 的 日 心 说 一 这 是 地 
球 运动 的 结果 ， 还 是 选择 接受 自己 的 感觉 ， 认 为 这 是 太阳 运动 的 结果 。 这 时 ， 这 
个 年 轻 人 心中 仿佛 有 一 束 射线 ， 经 过 他 的 老师 ， 将 他 和 伽利略 联系 在 一 起 。 

Gabriel Tarde 








选择 站 在 巨人 的 肩 上 没有 错 ， 但 是 在 腿 上 巨人 的 背 上 之 前 ， 或 许 应 该 确认 一 下 巨人 是 否 能 
受 这 一 重量 。 在 商业 上 ， 使 用 数据 卖 广告 是 个 热门 话题 。 你 或 许 有 权 对 世界 上 最 好 的 数据 集 
进行 分 析 ， 但 是 如 果 有 人 雇用 你 仅仅 是 为 了 找到 多 卖 几 双 鞋 的 方法 ， 这 样 做 真 的 值得 吗 ? 


在 我 们 做 作业 、 对 答案 时 ， 明 显 发 现 不 同 的 决定 能 导致 分 析 结 果 千 差 万 别 。 从 做 出 假设 到 
得 到 最 终结 果 ， 即 使 你 掌握 了 其 中 所 有 的 分 析 步 又， 但 由 于 每 一 个 步骤 中 仍然 存在 多 种 选 
择 ， 不 同 选择 的 组 合 将 是 一 个 庞大 的 数字 。 即 使 如 此 ， 那 也 不 是 简单 地 将 一 个 命令 的 输出 
传人 下 一 个 命令 。 算 法 是 可 裁剪 的 ， 选 择 哪 种 算法 ， 使 用 哪些 变量 更 是 如 此 。 























来 自 Media 6 Degrees (M6D) 的 Claudia Perlich 连续 在 2003 年 、2007 4E, 2008 年 、2009 
年 赢得 KDD 杯 数据 挖掘 竞赛 ， 现 在 她 是 这 项 赛事 的 组 委 会 成 员 。 她 慷慨 地 和 我 们 分 享 了 
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关于 数据 科学 的 得 失利 浆 ， 以 及 做 决定 时 采取 的 不 同方 式 。 有 次 竞赛 是 预测 医院 的 患者 治 
愈 率 ， 她 发 现 患者 是 按 顺 序 编号 的 ， 因 此 ， 来 自 同一 个 诊所 的 患者 都 是 连 号 的 。 不 同 医院 
的 条 件 和 患者 疾病 的 严重 程度 都 是 不 同 的 ， 因 此 ， 患 者 的 编号 成 了 预测 治愈 率 的 一 个 重要 
指标 。 显 然 ， 将 这 种 数据 漏洞 包含 在 内 并 不 是 有 意 为 之 ， 它 让 整个 比赛 变 成 了 小 菜 一 碟 
儿 。 但 是 在 现实 中 ， 它 应 该 用 在 预测 模型 中 ， 毕 浣 ， 医 生 和 病人 选择 的 诊所 是 应 该 被 用 于 
预测 患者 治愈 率 的 。 


























David Madigan 强调 了 在 数据 科学 领域 做 决策 时 来 自 道德 方面 的 挑战 ， 通 过 对 制药 业 的 观 
察 研究 发 现 ， 预 测 结果 也 常常 差别 很 大 〈 他 向 我 们 展示 了 阿司匹林 的 散 点 图 )。 他 强调 除 
真实 数据 之 外 ， 不 能 忽略 研究 者 自身 的 重要 性 。 仅 仅 调 整 模型 和 方法 ， 并 且 将 它们 应 用 到 
数据 上 是 不 够 的 。 




















学 术 界 也 面临 和 工业 界 类 似 的 问题 ， 尽 管 出 于 不 同 原因 。 在 各 学 科 之 间 ， 数 据 科 学 的 差别 
是 如 此 之 大 ， 以 致 于 不 能 通过 单独 对 某 门 学 科 的 研究 得 出 数据 科学 总 体 的 样 狐 ， 这 些 四 分 
五 裂 的 东西 究竟 是 怎么 攒 在 一 起 的 ?它们 能 攒 在 一 起 吗 ? 下 面 这 个 例子 展示 了 从 纯 学 术 的 
观点 是 如 何 量化 问题 的 ， 这 个 例子 是 一 道 作 业 题 ， 来自 The Elements of Statistical Learning 
(《 统 计 学 习 基 础 》)) 的 “Linear Methods for Regression" (线性 回归 方法 ) 一 章 : 




















3 


练习 3.2 已 知 变量 站 和 了 的 数据 ， 试 拟 合 一 个 三 次 多 项 式 回归 模型 /0 = 》、 


bXI， 拟 合 曲 线 需要 达到 95% 的 置信 带 。 试 考虑 如 下 两 种 拟 合 方式 : ;30 
3 
(1) 对 于 给 定 某 点 xo， 使 线性 函数 a^] = 》 bixi 在 该 点 的 置信 区 间 为 9596; 
js0 


(2) S3 B 3E 9596 的 置信 集合 ， 反 过 来 可 计算 出 Axo) 的 置信 区 间 。 


这 两 种 方式 有 什么 不 同 ? 哪 一 个 置信 带 的 范围 更 宽 ? 进行 一 个 小 型 的 模拟 实验 来 比较 
两 种 方法 的 优 劣 。 











这 是 在 机 器 学 习 或 数据 挖掘 课 上 一 般 会 布置 的 作业 。 作 为 初出 茅 庐 的 数据 科学 家 ， 我 们 现 
在 的 第 一 反应 应 该 是 怀疑 。 在 数据 分 析 的 过 程 中 ， 什 么 时 候 这 样 的 问题 才 会 出 现 ? 在 问题 
出 现 之 前 我 们 都 做 了 些 什么 ? 为 什么 我 们 只 考虑 这 两 个 变量 ， 而 不 是 其 他 变量 ? 我 们 是 如 
何 拿 到 数据 的 ? 谁 给 的 ? 谁 为 此 买单 ? 为 什么 要 计算 95% 的 置信 区 间 ? 使 用 其 他 度量 指标 
效果 会 不 会 更 好 ? 说 真 的 ， 谁 在 乎 我 们 的 模型 在 训练 数据 上 表现 得 多 好 ? 


这 对 Hastie 和 他 的 合作 者 而 言 并 不 公平 ， 他 们 会 说 如 果 学 生 想 学 如 何 抓 取 和 组 织 数据 ， 他 
们 应 该 找 相 应 的 书 来 看 ， 这 是 这 门 课 和 其 他 一 般 入 门 级 课程 的 鲜明 区 别 。 这 门 课 一 直 在 提 
醒 我 们 ， 抛 开 问 题 的 上 下 文 和 决策 流程 ， 单 纯 学 习 数据 科学 需要 的 统计 学 工具 是 没有 意义 
的 。 而 且 ， 真 实数 据 经 常 是 一 团 乱 及 ， 处 理 起 来 令 人 头疼 ;现实 中 也 疫 人 告诉 你 到 底 该 选 
择 哪 种 回归 模型 。 但 是 ， 仅 仅 知道 这 些 是 不 够 的 ， 必 须 通过 杀身 实践 才能 理解 ， 纸 上 得 来 
终 觉 线 ， 绝 知 此 事 要 躬 行 。 
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15.5 ”着 山 开 路 ， 遇 水 架 桥 


用 Michael Driscoll 的 话说 ， 我 们 这 群 初出 茅 庐 的 数据 科学 家 不 像 那 些 土木 工程 师 一 样 ， 对 
于 正在 做 的 事 ， 我 们 没有 一 个 全 局 的 视野 ， 蓝 图 并 不 是 永远 存在 。 数 据 科学 家 像 冒 险 家 ， 
他 们 知道 自己 要 寻找 什么 ， 他 们 口袋 里 有 相应 的 工具 ， 可 能 是 一 张 地 图 ， 或 者 几 个 朋友 。 
当 他 们 跋山涉水 终于 到 达 城 堡 时 ， 可 能 公主 并 不 在 那儿 ， 但 这 都 不 重要 ， 重 要 的 是 他 们 沿 
途 走 来 ， 踩 过 乌龟 ， 吃 过 蔬 菇 ， 而 且 依然 可 以 吐 火 。 如 果 说 科学 是 一 排 排 管道 ， 我 们 不 是 
管道 工 ， 我 们 是 仿 强 的 超级 马里 奥 兄 弟 ! 


15.6 ”作品 展示 


图 15-3 改进 了 我 们 在 第 1 章 绘制 的 数据 科学 家 履历 表 的 图 形 ， 图 15-4 展示 了 数据 科学 在 
各 大 学 间 的 流行 程度 ， 这 些 图 形 都 基于 2012 年 年 底 的 调查 数据 。 
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tudents in Columbia's E ES 
S Introduction to Data > El o. 

Science course came x 各 
from across the academic 
spectrum. Their skills are 
presented here in star charls 
with spokes representing their 
skill levels* across the data 
science skillset: , 


The Stars of Data Science 
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you compose your own inter- 
galactic data science team? 














图 15-3: 数据 科学 技能 星 型 图 (由 Adam Obeng, Eurry Kim, Christina Gutierrez, Kaz Sakamoto, 
Vaibhav Bhandari 合作 完成 ) ( 另 见 彩 插图 15-3) 
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& 15-4: 数据 科学 在 各 大 学 间 流 行程 度 的 星座 图 ( 由 Kaz Sakamoto, Eurry Kim, Vaibhav 


Bhandari 合作 完成 ) ( 另 见 彩 插图 15-4) 
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第 15 章 





第 16 章 
下 一 代数 据 科学 家 、 
自 大 狂 和 职业 道德 





本 章 将 回顾 过 去 ， 展 望 未 来 ， 以 此 对 全 书 做 以 总 结 。 


16.1 前 面 都 讲 了 些 什么 


本 书 有 两 个 主要 目标 ,一 是 告诉 读者 数据 科学 家 是 干什么 的 ， 二 是 教会 读者 一 些 数据 科学 
家 的 技能 。 


我 们 希望 本 书 已 经 完成 了 这 两 个 目标 。 





针对 第 一 个 目标 ， 本 书 若干 章 的 贡献 者 为 我 们 带 来 了 大 量 的 关于 数据 科学 家 日 常 工作 的 一 
手 资 料 。 在 本 书 中 ， 即 使 没 能 如 我 们 希望 那样 全 面 履 盖 数 据 科学 的 方方面面 ， 但 本 书 的 广 
度 仍然 值得 我 们 自豪 ， 这 帮助 我 们 实现 了 第 二 个 目标 。 


有 人 可 能 会 写 出 一 本 更 好 的 书 ， 下 栏 里 的 内 容 是 我 们 关于 这 个 问题 的 一 点 想法 。 
























































思维 实验 : 如 何 教授 数据 科学 
换 作 是 你 ， 你 会 怎么 样 去 写 一 本 关于 数据 科学 的 教材 ? 
首先 ， 数 据 科 学 并 没有 一 个 确切 的 定义 ， 也 没有 标准 可 循 ， 它 更 多 地 流行 于 报刊 和 媒 
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体 ， 但 是 没有 哪 家 “权威 机 构 ” 去 纠正 那些 漏洞 百出 和 以 褒 传 褒 的 错误 。 其 次 ， 数 据 
科学 和 很 多 其 他 学 科 都 有 交叉 ， 比 如 ， 一 本 数据 科学 的 教材 很 容易 就 会 变 成 另 一 本 机 
器 学 习 的 教材 。 

如 何 衡量 一 本 数据 科学 教材 是 否 成 功 ? 如 何 衡量 它 的 影响 力 ? 反之 ， 如 何 鉴定 一 本 教 
材 是 失败 的 ? 

我 们 能 把 这 当成 一 个 数据 科学 问题 吗 ? 如 果 能 使 用 一 个 因果 模型 去 回答 这 个 问题 ， 那 
再 好 不 过 了 。 这 需要 找到 那些 和 本 书 读 者 类 似 的 那些 人 ， 但 是 他 们 暂 未 购买 本 书 ， 然 
后 使 用 倾向 分 数 配对 法 进行 分 析 。 或 者 我 们 可 以 做 个 实验 ， 随 机 挑选 一 些 人 ， 让 他 们 
接触 不 到 本 书 (这 有 点 难 ， 因 为 人 人 都 可 以 访问 亚马逊 网 站 )， 而 且 他 们 还 可 以 通过 其 
他 方法 得 到 。 但 这 都 无 关 紧 要 ， 重 要 的 是 这 上 比 蒙 着 眼睛 猜 要 强 多 了 。 

在 业界 ， 一 直流 传 着 这 样 一 种 说 法 ， 数 据 科 学 是 不 可 能 在 大 学 里 或 者 书本 里 学 会 的 ， 
必须 在 工作 中 边 干 边 学 。 但 这 种 说 法 可 能 不 对 ， 这 本 书 可 能 就 是 一 个 证 明 。 学 没 学 会 ， 
亲爱 的 读者 ， 你 们 说 了 和 工 。 


E 类 pe rm 

16.2 ”什么 是 数据 科学 〈 再 问 一 次 ) 

在 书 中 ,我们 一 次 又 一 次 地 讨论 这 个 问题 ， 它 是 本 书 的 主题 ， 是 本 书 的 中 心 问题 ， 都 快 成 
HKH T. 

可 以 简单 地 通过 数据 科学 家 的 工作 来 定义 数据 科学 ， 在 前 面 讨论 数据 科学 家 的 知识 结构 时 ， 
我 们 就 这 样 干 过 。 EKE, E Rachel 来 到 哥伦比亚 大 学 开设 这 门 课程 之 前 ， 她 就 列 了 一 个 
数据 科学 家 的 工作 项 目 清单 ， 只 是 她 不 愿意 拿 出 来 给 人 看 ， 因 为 这 个 清单 有 点 乱 ， 而 且 条 
目 多 得 有 点 吓人 。 这 份 清单 就 是 后 来 提出 的 数据 科学 家 的 知识 结构 的 原始 材料 。 在 课程 结 
束 后 ， 通 过 与 一 些 人 的 交谈 ， 她 发 现 他 们 希望 看 到 这 份 清单 ， 于 是 我 们 就 把 它 列 在 下 面 : 


。 探索 性 数据 分 析 ; 

。 可 视 化 〈 用 在 探索 性 数据 分 析 和 汇报 中 ) ; 

。 数字 面板 和 算 阵 ， 

。 对 业务 的 洞察 力 ; 

。 数据 驱动 决策 ， 

。 数据 工程 和 处 理 大 数据 的 能 力 (Mapreduce, Hadoop, Hive, Pig); 

。 收集 数据 ， 

。 构建 数据 管道 (日志 一 mapreduce 一 数据 文件 一 同 其 他 数据 合并 一 mapreduce 一 清除 一 
些 噪声 一 合并 ) i 

。 开发 新 产品 ， 而 不 仅仅 停留 在 对 现 有 产品 的 使 用 进行 描述 上 ， 

* Hack; 

。 写 专利 ; 
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。 数据 侦探 ; 

。 预测 未 来 的 行为 或 性 能 ; 

。 将 发 现 写 成 报告 、 做 讲演 或 发 表 在 学 术 期 刊 上 ; 

。 编程 〈 要 熟练 使 用 R、Python、C 和 Java 等 语言 ) ; 

。 条 件 概率 ，; 

。 优化 ， 

。 算法 、 统 计 模 型 和 机 器 学 习 ， 

。 讲 故事 的 能 

。 会 提问 题 ， 

。 做 调查 ， 

id 搞 研 究 ， 

。 从 数据 中 做 出 推测 ， 

。 开发 数据 产品 ; 

。 找到 处 理 数 据 的 方法 ， 会 根据 数据 规模 改变 分 析 策 略 ; 
。 一 致 性 检查 ， 

。 对 数据 的 直觉 ， 

。 和 领域 专家 打交道 的 能 力 (或 者 让 自己 成 为 一 个 领域 专家 ) ， 
。 设计 和 分 析 实 验 ; 

。 发 现 数 据 间 的 相关 性 ， 并 且 堂 试 建立 潜在 的 因果 关系 。 


但 是 现在 ， 我 们 想 再 往 前 走 一 步 ， 去 追求 一 些 更 深刻 的 东西 。 


在 本 书 的 开头 ， 我 们 将 数据 科学 定义 为 在 科技 企业 的 一 组 最 佳 实 践 。 经 过 了 这 么 长 时 间 的 
探讨 ， 现 在 不 妨 把 眼界 放宽 ， 不 要 把 数据 科学 局 限 在 科技 企业 里 ， 将 其 他 领域 也 包括 进 
K: 神经 学 、 健 康 状况 分 析 、 电 子 搜索 、 计 算 社会 学 、 数 字 人 文 研究 、 基 因 学 、 政 治 等 ， 
将 所 有 可 用 数据 解决 的 问题 包括 进来 。 这 些 问题 都 可 以 利用 本 书 讨 论 的 一 些 最 佳 实践 来 解 
决 ， 只 不 过 有 些 实践 最 早 在 科技 企业 建立 起 来 而 已 。 数 据 科学 得 以 同时 在 工业 界 和 学 术 界 
发 展 ， 因 此 ， 数 据 科学 应 用 在 哪里 或 哪个 领域 并 不 重要 ， 它 的 关键 是 通过 算法 和 代码 定义 
了 一 套 从 “ 题 域 ”到 “ 解 域 ”的 映射 ， 而 数据 是 关键 中 的 关键 。 


因此 ， 我 们 可 以 这 样 定 义 数据 科学 : 数据 科学 是 一 些 科 技 公司 的 最 佳 实践 ， 但 可 推广 到 所 
有 可 以 用 数据 解决 的 问题 ， 有 时 叫 它 科学 也 无 妨 。 即 使 这 样 ， 有 时 数据 科学 也 只 是 沦 为 一 
场 炒作 ， 这 是 我 们 要 极力 避免 的 ， 我 们 更 不 应 该 推波助澜 地 帮助 他 们 炒作 。 


16.3 谁 是 下 一 代 的 数据 科学 家 
“在 我 的 时 代 ， 那 些 最 聪明 的 人 都 在 思考 怎么 让 用 户 点 击 广 告 …… 这 简直 弱 爆 了 。 


Jeff Hammerbacher 
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理想 情况 下 ， 这 一 代 正 在 接受 训练 的 数据 科学 家 不 应 满足 于 成 为 技术 高 手 ， 在 一 个 舒适 的 
城市 找 一 份 薪水 不 菲 的 工作 ， 当 然 这 些 都 不 错 ， 但 我 们 应 该 有 更 高 的 追求 。 我 们 鼓励 下 一 
代数 据 科学 家 成 为 提出 问题 并 解决 问题 的 人 ,深入 思考 合适 的 设计 和 流程 ， 负 责任 地 使 用 
数据 ， 让 这 个 世界 变 得 更 好 ， 而 不 是 更 坏 。 让 我 们 在 下 面 几 市 详细 展开 这 些 内 容 。 


16.3.1 成 为 解决 问题 的 人 

让 我 们 先 来 讨论 数据 科学 家 需要 具备 的 技术 。 下 一 代数 据 科 学 家 应 努力 具备 以 下 技能 : 编 
写 程 序 、 统 计 学 、 机 器 学 习 、 可 视 化 、 沟 通 的 技巧 和 数学 。 同 时 ， 有 一 个 坚实 的 编程 基 
础 ， 良 好 的 编程 实践 ， 诸 如 结对 编程 、 代 码 审 查 、 调 试 和 版 本 管理 ， 无 疑 是 很 有 价值 的 。 





























什么 时 候 强 调 探 索性 数据 分 析 都 为 时 不 晚 ， 这 点 我 们 在 第 2 章 讲 过 ， 同 样 的 ， 还 有 Will 
Cukierski 提 到 的 对 特征 进行 选择 。Brian Dalessandro 强调 了 数据 科学 家 如 何在 无 数 的 
模型 中 做 出 选择 一 一 该 选用 哪 种 分 类 器 、 特 征 、 损 失 函 数 、 优 选 法 和 评价 模型 的 标准 。 
Huffaker 讨论 了 特征 或 矩阵 的 构成 ， 从 日 志 中 变换 变量 ， 构 建 0-1 变量 (比如 ， 重 复 5 次 
同样 活动 的 用 户 )， 聚 合 和 计算 。 虽 然 这 些 是 数据 科学 中 的 关键 部 分 ， 但 经 常 被 认为 是 微 
不 足 道 的 ， 因 此 常常 在 工作 中 被 忽略 了 。Dalessandro 将 这 称 为 “数据 科学 的 艺术 ”。 

另 一 个 警告 : 很 多 人 拿 到 数据 就 直接 使 用 一 个 花哨 的 算法 。 但 是 在 数据 和 算法 之 间 ， 还 有 
很 长 的 一 段 距 离 。 跑 一 段 代码 去 预测 或 分 类 ， 当 算法 收敛 时 就 可 以 宣告 取得 了 成 功 ， 这 些 
都 很 简单 。 难 的 是 正确 地 分 析 和 预测 ， 确 保 结果 是 正确 和 说 得 通 的 。 

















Ya 
下 一 代数 据 科 学 家 会 怎么 做 
p^ 。 下 一 代数 据 科学 家 不 会 试图 用 复杂 但 并 不 奏效 的 模型 来 让 自己 看 起 来 高 深 莫 
必 ， 测 。 他 们 花 大 量 的 时 间 整 理 数据 ， 大 概 90% 的 时 间 ， 尽 管 没 人 愿意 承认 这 
一 点 。 最 后 ， 他 们 不 会 陷入 对 某 种 工具 、 方 法 或 某 个 学 术 部 门 的 宗教 式 崇拜 
中 ， 他 们 多 才 多 艺 ， 在 各 学 科 间 切换 自如 。 











16.3.2 培养 软 技能 

很 多 人 都 能 实现 上 最 小 近邻 算法 ， 但 很 多 人 都 没 做 好 。 事 实 上 ， 大 多 数 人 开始 做 得 都 不 是 
很 好 ， 从 哪儿 开始 不 重要 ， 重 要 的 是 最 终 能 走 多 远 。 养 成 良好 的 习惯 ， 以 开放 的 心态 持续 
学 习 是 非常 重要 的 。 





我 们 认为 下 述 一 些 思想 品质 有 助 于 解决 问题 : 持之以恒 ， 思 考 你 的 大 脑 是 如 何 思考 的 ， 不 
钻 牛角 尖 ， 能 灵活 地 思 芳 ， 永 远 追 求 准 确 度 ， 带 有 同 理 心地 去 思 攻 问题 。 





注 1: 摘自 Learning and Leading with Habits of Mind, Arthur L. Costa, Bena Kallick 编 (ACSD)。 





284 | 第 16 章 


让 我 们 换个 角度 来 看 这 个 问题 ， 在 传统 教育 体系 中 ， 我 们 关注 的 是 答案 。 但 我 们 更 应 该 关 
注 ， 或 者 至 少 应 该 花 更 大 力气 去 强调 的 是 学 生 在 面 对 未 知 问题 时 该 怎么 办 。 我 们 需要 具备 
能 帮助 找 出 答案 的 素质 。 


说 到 这 里 ， 你 是 否 想 过 ， 为 什么 人 们 不 知道 某 件 事 时 ， 不 直接 说 “不 知道 ”? 这 种 现象 
可 以 被 部 分 解释 为 “ 达 克 效应 ”， 无 知 比 知识 更 容易 招致 自信 。 


基本 上 ， 在 某 件 事 上 不 擅长 的 人 ， 不 知道 他 们 在 这 件 事 上 有 多 无 知 ， 因 此 容易 高 估 自 己 ， 
而 那些 擅长 某 事 的 人 ， 却 因为 了 解 ， 反 而 低估 了 他 们 的 能 力 。 知 识 削 弱 了 人 们 的 自信 。 将 
这 些 说 记 在 心 ， 不 要 高 估 ， 也 不 要 低估 自己 ， 确 保 说 到 的 东西 可 以 做 到 ， 和 其 他 数据 科学 
家 交谈 时 不 要 忘记 随时 检查 自己 。 


























思维 实验 : 如 何 教授 数据 科学 


换 作 你 ， 如 何 设计 一 门 数据 科学 课程 ， 将 重点 放 在 思考 习惯 ， 而 不 是 技术 的 培养 上 ? 
你 如 何 量化 它 ? 又 如 何 评价 它 ? 哪些 内 容 学 生 们 可 以 写 在 自己 的 简历 上 ? 











16.3.3 成 为 提问 者 
人 们 很 容易 将 模型 过 拟 合 ， 这 是 人 们 的 天 性 ， 每 个 人 都 “望子成龙 "， 很 可 能 你 已 经 在 这 
个 模型 上 工作 几 个 月 了 ， 对 待 它 ， 你 会 像 个 慈母 或 慈 父 。 


人 们 的 另 一 个 天 性 是 低估 了 坏 消息 ， 并 且 将 坏 消 息 归 罪 于 别人 。 站 在 父母 的 角度 ， 自 己 孩 
子 干 的 事 ， 或 能 干 的 事 都 不 会 是 坏事 。 除 非 是 有 人 使 坏 ， 唆 使 孩子 干 的。 我 们 该 如 何 殉 服 
人 类 的 这 种 天 性 ? 


理想 情况 下 ， 我 们 希望 数据 科学 家 配 得 上 “科学 家 ”这 个 称号 ， 他 们 应 该 对 假设 进行 检 
验 ， 不 惧 挑 战 ， 欢 迎 其 他 理论 进行 争鸣 。 这 就 是 说 ， 我 们 得 挑 自己 的 刺 ， 接 受 挑战 ， 像 个 
科学 家 那样 设计 实验 ， 而 不 是 用 花言巧语 或 以 政治 为 由 为 自己 的 模型 进行 辩护 。 如 果 有 人 
说 他 们 能 做 得 更 好 ， 那 就 事先 确定 好 评价 标准 ， 让 他 们 去 试 好 了 。 尽 量 让 事情 变 得 客观 。 


习惯 遵循 一 份 包含 关键 步骤 的 标准 清单 : 非 要 这 样 做 不 可 吗 ? 如 何 衡量 它 ? 哪 种 算法 适合 
这 个 问题 ， 为 什么 ? 我 该 如 何 评价 它 ? 我 真 的 具备 做 这 件 事 的 技术 吗 ? 如 果 疫 有 ， 我 该 如 
何 学 习 这 些 技术 ? 我 可 以 和 谁 一 起 工作 ? 有 问题 可 以 问 谁 ? 对 现实 世界 有 何 影 响 ? 最 后 这 
个 可 能 是 最 重要 的 一 个 问题 。 
































MH 























其 次 ， 习 惯 向 别人 提问 。 当 你 遇 到 一 个 问题 或 某 个 人 ， 需 要 提出 问题 时 ， 先 假设 自己 是 聪 
明 的 ， 不 要 认为 回答 的 人 比 你 知道 得 多 或 者 少 。 不 要 试图 去 证 明 什么 ， 你 的 目的 是 找到 答 
案 。 像 个 孩子 那样 充满 好 奇 心 ， 别 怕 自 己 看 起 来 很 茶 。 要 求 浴 清 一 些 符 号 、 术 语 和 流程 : 
数据 从 哪里 来 ?如何 使 用 这 些 数据 ? 为 什么 这 些 数 据 能 用 ? 我 们 忽略 了 哪些 数据 ， 这 些 数 
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据 包含 更 多 特征 吗 ? 谁 该 干什么 ?如 何 一 起 合作 ? 


最 后 ， 有 一 个 特别 重要 的 概念 要 时 刻 牢 记 ， 那 就 是 因果 关系 和 相关 关系 。 不 要 将 二 者 混 为 
一 谈 。 也 就 是 说 ， 当 你 看 到 相关 关系 时 ， 不 要 误 以 为 那 是 因果 关系 。 








下 一 代数 据 科学 家 会 怎么 做 
p^ 。 下 一 代数 据 科学 家 仍然 对 一 切 保持 怀疑 的 态度 : 怀疑 模型 本 身 ， 模 型 会 在 什 
会 ， 么 情况 下 失败 ， 模 型 该 如 何 使 用 ， 模 型 又 会 被 如 何 误 用 。 下 一 代数 据 科学 家 
知道 他 们 正在 构建 模型 的 影响 和 后 果 ， 他 们 会 思考 基于 反馈 的 循环 和 潜在 的 
在 模型 之 间 进 行 博弈 。 











16.4 做 一 个 有 道德 感 的 数据 科学 家 
数据 科学 家 绝 不 是 一 个 坐 在 墙角 的 书 打 子 ， 当 你 工作 时 ， 会 有 越 来 越 多 的 伦理 问题 需要 
Ai. 


现在 我 们 拥有 海量 的 市 场 和 用 户 行为 数据 。 作 为 数据 科学 家 ， 我 们 不 只 是 机 械 地 使 用 一 些 
机 器 学 习 工 具 ， 我 们 还 需要 从 人 文 主义 角度 ， 去 解释 和 发 现 数据 中 的 意义 ， 去 做 出 符合 道 
德 规范 的 、 基 于 数据 的 决策 。 


要 牢记 用 户 行为 产生 的 数据 已 经 构成 了 数据 产品 的 一 部 分 ， 反 过 来 数据 产品 又 被 用 户 使 
用 ， 影 响 用 户 的 行为 。 这 种 例子 俯 拾 皆 是 : 推荐 系统 、 排 名 算法 、 好 友 推 荐 系统 等 。 这 种 
现象 将 会 在 越 来 越 多 的 行业 看 到 ， 比 如 教育 、 金 融 、 零 售 、 健 康 等 领域 。 这 种 基于 反馈 的 
循环 也 会 出 错 ， 金 融 风 暴 就 是 给 我 们 的 一 个 警示 。 




















数据 科学 被 用 来 预测 未 来 (Nate Silver，http://slate.me/1g3DilY)、 预 测 现在 (Hal Varian, 
http://googleresearch.blogspot.com/2009/04/predicting-present-with-google-trends.html), 探 索 
数据 中 存在 的 因果 关系 (Sinan Aral，http://caossnyc.org/#schedule)， 这 样 的 例子 我 们 已 经 
讲 了 很 多 。 

















下 面 我 们 要 讲 的 是 模型 和 算法 不 仅 用 来 预测 未 来 ， 它 们 还 在 影响 未 来 。 有 时 ， 这 是 我 们 所 
期 待 的 ， 有 时 ， 这 又 是 我 们 想 极力 避免 的 。 


Emanuel Derman 提出 了 为 金融 行业 进行 建 模 的 “ 希 波 克 拉 底 上 耕 言 ”， 这 份 的 言 不 仅 适 用 于 
金融 业 ， 也 适用 于 其 他 行业 ， 让 我 们 以 此 为 起 点 ， 介 绍 一 下 建 模 时 需要 做 出 的 道德 考量 。 


。 时 刻 谨 记 这 个 世界 不 是 由 我 创造 的 ， 它 不 必 符 合 我 的 方程 式 。 

。 虽然 可 以 大 胆 地 使 用 模型 做 预测 ， 但 切 不 可 过 分 迷信 数学 。 

。 我 绝 不 会 牺牲 真 实 换 来 优雅 的 数学 模型 ， 并 且 拒 绝 解释 这 样 做 的 原因 。 我 也 不 会 在 模型 
的 准确 度 上 欺骗 我 的 用 户 ， 相 反 的 ， 我 会 如 实 陈 述 模 型 的 假设 条 件 和 模型 的 局 限 性 。 
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。 我 知道 我 的 工作 对 于 社会 和 经 济 影 响 巨 大 ， 甚 中 很 多 已 经 超出 我 的 理解 能 力 。 


这 份 的 言 并 没有 将 在 业界 工作 时 的 政治 因素 卷 虑 进来 ， 但 作为 一 个 数据 科学 家 ， 有 时 不 得 
不 如 此 。 即 使 对 模型 心 存 怀疑 ， 仍 然 会 有 人 置 你 的 警告 于 不 顾 ， 错 误 地 使 用 模型 。 所 以 
“ 建 模 者 的 希 波 殉 拉 底 的 言 ”的 约束 力 在 现实 中 还 是 显得 有 点 捉 答 见 肘 ， 但 不 可 否认 ， 这 
仍然 是 一 个 好 的 开始 。 














下 一 代数 据 科 学 家 会 怎么 做 

p^ 、 下 一 代数 据 科学 家 不 会 让 金钱 蒙蔽 了 双眼 ， 不 会 将 自己 的 模型 用 于 危害 社会 
”的 活动 。 他 们 寻找 机 会 去 解决 那些 对 社会 有 价值 的 问题 ， 并 且 试 图 了 解 他 们 
的 模型 对 社会 的 影响 。 





























后 ， 有 一 些 使 用 数据 科学 服务 社会 的 途径 : 比如 可 以 作为 志愿 者 参与 DataKind (http:/ 
www.datakind.org/) 的 一 些 长 期 项 目 ， 这 可 比 那些 在 周末 举行 的 黑客 马拉松 有 意思 多 了 。 


还 有 让 社会 变 得 公正 透明 的 途径 : Victoria Stodden 创办 的 RunMyCode 网 站 (http://www. 
runmycode.org/CompanionSite/) ， 旨 在 让 科研 工作 开源 化 和 可 复制 化 。 





我 们 想 和 暂且 把 发 言 权 交 给 来 自 哥伦比亚 大 学 历史 系 的 Matthew Jones 教授 ， 他 是 历史 方面 
的 专家 ， 他 也 上 了 我 们 的 数据 科学 导论 课程 ， 他 将 自己 对 该 课程 的 一 些 想法 写 下 来 ， 着 重 
阐述 了 道德 和 自 大 情绪 的 克服 在 数据 科学 中 的 重要 作用 。 我 们 把 他 的 文章 抄录 在 此 ， 以 给 
读者 。 











数据 和 自 大 狂 


在 2012 年 美国 总 统 大 选 后 ， 一 种 幸灾乐祸 的 情绪 在 数据 科学 家 以 及 那些 崇拜 甚至 神化 
他 们 的 粉丝 中 迅速 蔓延 ， 因 传统 的 专家 们 预测 错误 了 。 计 算 统 计 和 数据 分 析 彻 底 击 败 
了 传统 的 预测 方式 ， 这 些 预测 一 般 是 基于 旧式 直觉 、 长 期 的 新 闻 业 从 业经 验 ， 或 者 是 
依靠 日 渐 式 微 的 华盛顿 内 部 人 士 关 系 网 。 奥 巴 马 团队 和 其 他 人 基于 量化 的 预测 (http:// 
ti.me/GzJIhH) 的 成 功 (http:Wlatms/lhkOxki) ， 显 而 易 见 (http:Wti.me/GzJIhH) 地 揭示 
了 政治 分 析 领域 一 个 新 时 代 的 到 来 。 传 统 的 所 谓 “ 专 家 意见 "， 现 在 鲜 被 提 及 ， 而 且 有 
人 建议 应 被 请 下 神 坛 ， 让 位 于 新 出 现 的 数据 驱动 的 政治 分 析 。 

这 是 一 段 引人入胜 的 传奇 ， 充 分 展示 了 新 旧 两 种 知识 在 面 对 同 一 个 问题 时 的 冲突 。 

而 ， 那 些 真正 优秀 的 数据 科学 家 已 经 开始 反思 ， 完 全 抛弃 现 有 的 领域 知识 和 专 
相当 危险 的 。 


关于 起 源 的 故事 总 会 为 专业 知识 的 分 层 增 加 更 多 的 合理 性 。 数 据 挖掘 领域 长 期 以 来 
有 一 个 广 为 传颂 的 故事 ， 尽管 有 点 虚构 的 成 分 。 故 事 是 这 样 的 利用 一 种 关联 算法 

















下 一 代数 据 科 学 家 、 自 大 狂 和 职业 道德 、| 287 


(https://en.wikipedia.org/wiki/Association rule learning). AF 5p XE p A JL, AAR 
商店 里 购买 尿布 的 男士 常常 会 同时 购买 啤酒 (http//www.itbusiness.ca/news/behind-the- 
beer-and-diapers-data-mining-legend/136) 。 其 实 ， 市 场 营销 人 员 和 凭借 他 们 自学 的 有 限 心 
理学 知识 和 对 市 场 的 直觉 ， 早 在 计算 机 还 被 称 作 “电脑 ”之 前 就 发 现 了 这 一 现象 。 这 
个 故事 符合 经 典 的 模板 ， 概率 论 和 统计 学 从 欧洲 启蒙 运动 伊始 (http://press.princeton. 
edu/titles/4295.html) 就 一 直 在 挑战 传统 知识 : 保险 和 养老 年 金 的 价格 取决 于 数据 ， 而 
不 是 申请 者 的 状况 和 那些 年 长 的 专家 们 的 建议 。 在 将 让 人 喜爱 的 〈 或 者 让 人 恐 怖 的 ) 
艾 普 西 隆 、 德 耳 塔 引入 真正 的 分 析 那 本 书 中 (http//goo.gl/v5JhxG) ， 奥 十 斯 丁 . 路 易 . 
柯 西 批评 了 那些 法 国 大 革命 中 的 统计 学 家 : “让 我 们 满怀 热情 的 去 发 展 数学 ， 但 不 要 妄 
图 将 其 应 用 于 其 他 领域 ; 我 们 不 要 幻想 用 公式 来 攻击 历史 ， 也 不 要 通过 代数 理论 和 微 
积分 来 评判 道德 的 高 下 。 


这 些 描述 与 当年 兴起 的 分 离 主义 理念 相当 契合 ， 而 这 种 理念 正 是 硅谷 的 自由 主义 者 、 
信奉 能 彼 特 理论 的 资本 主义 者 和 一 些 技术 期 刊 的 核心 主张 。 虽 然 可 避免 政治 分 析 中 的 
权力 寻 租 和 其 他 规则 ， 但 二 分 法 错误 地 分 开 了 技能 和 知识 ， 而 这 两 者 却 都 是 膏 引 数据 
科学 不 断 进步 的 关键 。 前 面 的 章节 主要 讲述 了 培养 数据 科学 家 掌握 多 种 技能 的 各 种 方 
法 一 一 这 将 粗浅 的 二 分 法 观点 驳斥 得 体 无 完 肤 ， 也 就 是 说 ， 数 据 专 家 和 传统 的 专家 并 
非 毫 无 交集 。 本 书 在 教授 技术 的 同时 ， 让 那些 自 大 狂 变 得 谦逊 ， 尤 其 是 那些 自负 算法 
无 敌 的 人 。 
奥巴马 的 数据 团队 这 样 解释 他 们 的 成 功 (http://goo.gl/sB8pGH)， 成 功 来 自 严肃 地 对 待 
自负 情绪 ， 构 建 的 技术 系统 避免 了 过 分 估计 ， 选 择 了 将 算法 作为 后 人 台 和 网 络 的 补充 。 
Haper Reed 向 亚特兰大 报 的 作者 Alexis Madrigal 这 样 解释 道 :“ 我 认为 共和 党 搞 砸 了 。 
我 知道 我 们 有 最 好 的 团队 ， 但 是 我 们 不 知道 它 是 否 能 工作 。 我 曾经 信 堆 旦 旦 这 一 定 能 
iT, 我 把 身家 都 压 在 了 上 面 。 我 们 有 时 间 ， 有 资源 ， 我 们 做 了 所 有 能 做 的 ， 但 还 是 不 
起 作用 。 总 有 些 事情 会 发 生 的 。 
有 关 “ 领 域 知识 ”价值 的 讨论 在 数据 科学 社区 里 长 期 呈现 两 极 分 化 的 趋势 。 无 监督 学 
习 其 实 是 克服 了 对 人 们 习惯 的 社会 和 科学 分 析 方 式 的 依赖 ， 正 如 在 奥巴马 分 析 团 队 中 
看 到 的 那样 (http://lat.ms/1hkOxki)。 年 仅 29 岁 的 首席 分 析 官 Daniel Wagner 这 样 说 : 

在 竞选 活动 中 找 出 “足球 妈妈 ”“ 服 务 员 妈妈 ”分 组 游说 这 样 的 方式 已 经 过 时 

了 。 竞 选 活动 现在 已 经 可 以 精确 定位 到 每 个 中 间 选 民 。 郊 区 的 白人 妇女 ? 他 

们 都 是 不 一 样 的 。 拉 丁 毅 社区 差异 较 大 ， 不 同人 有 不 同 的 兴趣 。 数 据 能 给 你 

的 只 是 如 何 区 分 出 这 些 差异 。 





人 们 染 渐 弱 化 了 分 组 ， 但 是 将 领域 知识 带 入 统计 学 的 运动 似乎 和 正规 的 数据 挖 所 一 样 
B xA, 


《华尔街 日 报 》 有 篇 文章 (http//on.wsj.com/15LnZno). ， 现 在 已 经 不 那么 有 名 了 。Peggy 
Noonan 这 样 形容 奥巴马 分 析 团 队 的 工作 : ”这 就 像 火星 人 干 的 。“ 竞 选 活动 中 参与 的 
人 很 少 ， 作 战 室 里 全 是 些 “ 高 科技 不 会 流血 ”的 物种 。 与 此 同时 罗 姆 尼 一 方 的 广告 也 
类 似 。 
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数据 科学 基于 算法 但 不 等 同 于 算法 。 算 法 的 使 用 要 基于 社会 学 中 的 “ 隐 性 知识 ” 
(http://amzn.to/19huR1W) 一 一 这 是 通过 实践 得 来 的 知识 ， 不易 简 单 总 结 成 规则 ， 或 者 
根本 就 不 可 能 总 结 成 规则 。 使 用 好 算法 从 根本 上 说 也 是 一 项 人 为 活动 一 种 非 算 法 
的 东西 。 


不 去 警告 这 些 年 轻 的 数据 科学 家 就 会 带 来 很 多 过 拟 合 的 庆 险 ， 在 训练 集 上 采用 了 骂 声 

数据 ， 或 者 过 多 学 习 训 练 集 以 致 不 能 将 结论 泛 人 化。 避免 过 拟 合 需要 仔细 考虑 使 用 的 算 

法 。 和 算法 是 需要 我 们 投入 更 多 思考 的 工具 。Peter Huber 在 1977 年 这 样 解释 道 :“ 我 认 

为 ， 问 题 不 是 要 用 机 器 智能 取代 人 类 的 聪明 才智 ， 而 是 使 用 所 有 计算 机 科学 、 人 工 知 

能 提供 的 工具 帮助 人 类 发 挥 自己 的 聪明 才智 ， 尤 其 是 即兴 使 用 各 种 搜索 工具 、 记 录 分 

析 的 进展 。” “即兴” 一 词 恰好 指出 了 要 掌握 工具 的 使 用 、 依 据 上 下 文 推理 、 避 免 死 记 

硬 背 。 自 大 狂 使 用 算法 时 ， 务 必要 深入 理解 算法 ， 对 具体 的 实现 要 了 如 指 掌 。 

Noonan 提供 的 奥巴马 竞选 团队 的 招聘 广告 上 (http:/goo.g8IM3KuIuj) ， 明 显 体现 出 对 现 

有 模型 优点 和 缺点 的 思考 : 

。 开发 和 实现 统计 /预测 /机 器 学 习 模 型 支持 竞选 活动 、 数 字 媒 体 、 付 费 媒体 和 募捐 
竞选 资金 ; 

。 评价 以 前 模型 的 性 能 ， 决 定 是 否 需 要 更 新 ; 

。 设计 和 执行 实验 ， 验 证 模型 的 适用 性 和 有 效 性 。 





自动 化 的 模型 唾 手 可 得 ， 并 不 是 这 里 的 重点 : 重点 是 批评 和 评价 。 只 有 熟悉 这 一 领域 
的 火星 人 才能 干 这 个 : 各 种 各 样 的 数据 太 重 要 了 ， 干 万 不 可 放 过 。 


怎么 样 学 会 随机 应 变 ? 换 负 话说， 什么 模型 是 教育 数据 科学 家 的 最 佳 选择 ? 能 够 使 用 
算法 和 大 数据 来 即兴 发 挥 的 能 力 需 要 桂 续 不 断 地 抽 丝 刊 蔓 ， 清 理 组 织 混 乱 、 不 完整 、 
很 可 能 是 没有 结论 的 数据 。 训练 需要 的 最 佳 模 型 不 是 通过 这 种 狭隘 的 职业 教育 ， 而 是 
回归 人 文艺 术 的 本 质 。 


几 个 世纪 以 来 ， 艺 术 ， 比 如 数学 和 音乐 都 被 归 为 人 文学 科 的 范畴 ， 因 为 它们 不 能 被 自 
动 化 、 机 器 化 、 重 复 化 和 惯常 化 。 人 文学 科 让 人 得 到 自由 ， 这 种 自由 反映 在 他 们 使 用 
的 工具 、 行 为 和 习惯 上 。 人 们 不 被 工具 所 奴役 ， 他 们 可 以 自由 地 选择 使 用 或 不 使 用 工 
具 。 算 法 也 是 如 此 ， 称 职 的 数据 科学 家 不 必 循 规 踏 和 矩 ， 任 何 技术 相关 的 宿命 论 都 不 适 
用 。 数 据 科 学 家 从 不 将 使 用 一 项 技术 的 可 能 性 和 必要 性 混为一谈 。 面 对 数据 有 无 数 可 
能 ， 但 是 只 有 很 小 的 一 部 分 合乎 道德 (并 且 有 趣 ) 的 问题 需要 我 们 花 力气 去 解决 。 


— —- Matthew Jones 








16.5 ”对 于 职业 生涯 的 建议 


对 于 雄心 勃勃 的 下 一 代 据 科学 家 ， 尤 其 那些 已 经 阅读 至 这 里 的 读者 朋友 们 ， 我 们 是 从 来 不 
将 惜 自己 的 建议 的 。 
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我 们 已 经 习惯 回答 这 类 问题 了， 毕竟， 很 多 人 都 曾 问 过 我 们 他 们 是 否 应 该 成 为 一 名 数据 科 
学 家 。 相 比 直接 给 出 答案 ， 我 们 经 常会 先 问 他 们 两 个 问题 。 


1. 你 选择 什么 样 的 生活 
要 回答 这 个 问题 ， 你 需要 清楚 自己 看 重 什么 。 你 也 许 看 重金 钱 ， 你 需要 足够 的 钱 过 上 你 
理想 的 生活 ， 其 至 想 要 更 多 的 钱 。 这 样 很 多 很 酷 、 但 是 没 人 愿意 掏 钱 的 项 目 就 被 排除 在 
你 的 选择 之 外 了 (但 千 万 不 要 因此 放弃 为 这 类 项 目 筹 款 )。 你 也 许 看 重 和 爱人 或 者 朋友 
共度 美好 时 光 ， 那 么 你 就 不 应 该 选择 去 一 些 初创 公司 工作 ， 在 那里 的 人 一 天 工作 十 二 小 
时 ， 而 且 经 常 睡 在 办 公 桌 底下 。 我 没 骗 你 ， 这 样 的 地 方 的 确 存在 。 


或 者 你 追求 的 是 为 世界 干 点 有 益 的 事 ， 同 时 实现 自我 价值 并 体现 智慧 价值 。 一 定 要 根据 
个 人 情况 去 衡量 这 些 选 择 ， 它 们 是 截然 不 同 的 选择 。 




















你 的 目标 是 什么 ”你 想 追 求 什么 ? 你 想 成 名 吗 ? 你 想 受 人 尊敬 ， 并 且 学 有 所 长 吗 ?或许 
你 的 最 佳 选择 是 上 述 几 种 情况 的 某 种 组 合 ， 那 么 现在 ， 你 清楚 地 知道 你 的 选择 了 吗 ? 


2. 你 有 哪些 局 限 
有 很 多 外 在 因素 ， 或 许 是 你 无 法 左右 的 ， 比 如 你 无 法 选择 和 家 人 住 在 哪里 。 还 有 人 金钱 和 
时 间 上 的 限制 ， 你 是 否 需 要 人 研究 公司 的 年 假 、 产 假 和 陪 产 假 政策 。 向 用 人 单位 推销 自己 
难度 几何 ? 不 要 被 逼 入 绝境 ， 想 想 如 何 展示 自己 积极 的 一 面 : 学 历 、 优 缺点 、 能 改变 的 
和 不 能 改变 的 。 

基于 你 看 重 的 东西 和 那些 局 限 因素 ， 有 很 多 方案 可 供 选 择 。 在 我 们 看 来 ， 工 作 没 有 好 坏 ， 

只 有 合适 不 合适 。 不 同 的 人 想 从 工作 中 获得 的 东西 是 不 一 样 的 。 


一 方面 ， 你 决定 要 做 的 任何 事 都 不 是 绝对 的 ， 你 随时 可 以 改变 当初 的 选择 ， 人 们 不 都 在 换 
工作 吗 ? 因 此 不 要 太 过 担心 。 另 一 方面 ， 人 生 苗 短 ， 不 要 停 沾 不 前 ， 永 远 向 着 正确 的 方向 
前 进 ， 永 远 追 寻 那 些 内 心 真 下 在乎 的 东西 。 















































最 后 ， 如 果 你 认为 你 的 想法 和 思考 方式 和 周围 人 不 同 ， 那 么 请 相信 自己 ， 去 探索 它 ， 你 有 
可 能 大 有 作为 。 
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